自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

skysys的研究小屋

目前主要研究 LLM/Agent 安全架构

  • 博客(1464)
  • 资源 (64)
  • 收藏
  • 关注

原创 【大模型安全对齐/超越表面对齐】Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism

解决大模型表面安全对齐的防御微调方法

2025-09-20 02:53:59 998

原创 【ACL2024】Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

近期,大语言模型(LLM)取得了显著进展,并已在金融、法律、医疗等众多领域得到广泛应用。然而,人们越来越担心 LLM 被滥用于生成有害或恶意内容。尽管已有大量研究致力于将 LLM 与人类价值观对齐、防止其输出不当内容,这类对齐通常较为脆弱,易被对抗性优化或手工构造的越狱提示所绕过。本文提出鲁棒对齐大语言模型(Robustly Aligned LLM,RA-LLM),用以抵御潜在的“破对齐”攻击。

2026-01-23 23:53:31 464

原创 【USENIX Security25】TwinBreak: Jailbreaking LLM Security Alignments based on Twin Prompts

方法类似“双提示”思想:输入两条无害提示,分析其激活差异。此时差异反映高层概念理解相关参数,也帮助识别无论提示有害与否均高激活的参数。聚焦最大差异,可定位对文本理解与生成最关键的部分,确保只剪枝与安全相关而非效用相关的区域。

2026-01-17 16:45:29 491

原创 【大模型安全】【大模型越狱】Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

随着功能强大的大型语言模型(LLM)的逐步开源,其在降低数据标注与计算成本方面的优势,显著推动了下游应用的发展。为确保 AI 安全,这些模型均接受了细致的安全对齐,以抵御恶意使用(主要针对硬提示攻击)。然而,在这层看似坚不可摧的铠甲之下,可能潜藏着一道阴影。。我们将这一新型攻击正式命名为,同时不牺牲其通用能力。值得注意的是,。我们在 5 家机构发布的 8 个模型(LLaMA-2、Falcon、InternLM、Baichuan2、Vicuna)上进行了实验,结果验证了影子对齐攻击的有效性。

2026-01-11 15:22:01 1020

原创 【大模型安全】【ACL2024 Main】SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding

随着大型语言模型(LLM)越来越多地集成到代码生成和聊天机器人等实际应用中,人们投入了大量精力使 LLM 的行为与人类价值观保持一致,包括安全性。越狱攻击旨在诱导 LLM 产生意外且不安全的响应,仍然是 LLM 安全性的重大威胁。在本文中,我们旨在通过引入 SafeDecoding 来保护 LLM 免受越狱攻击,SafeDecoding 是一种安全感知的解码策略,使 LLM 能够对用户查询生成有用且无害的响应。

2026-01-11 02:34:34 570

原创 【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models

大型语言模型(LLM)容易受到越狱攻击,导致生成有害、不道德或有偏见的内容。然而,现有的越狱方法计算成本高昂。本文提出了一种高效的推理时攻击方法——。。该方法的技术关键在于,。我们在来自3个机构的5个开源LLM上评估了该方法,结果显示,。本研究揭示了LLM对齐中亟需解决的安全问题。作为初步尝试,我们提出了一种防御策略,但构建更先进的防御仍然充满挑战。相关代码已开源。

2026-01-10 23:20:05 915

原创 [IJCNN]Adversarial Attack on Large Language Models using Exponentiated Gradient Descent

随着大语言模型(LLM)的广泛应用,系统性地理解它们对于提升模型安全性并释放其全部潜力至关重要。尽管许多模型已通过人类反馈强化学习(RLHF)等对齐技术进行微调,它们仍然容易受到“越狱”攻击。现有的一些对抗攻击方法,而另一些则尝试。。为充分利用该空间的约束与结构,我们提出一种内禀优化(intrinsic optimization)技术——基于,确保优化后的 one-hot encoding 始终位于内(我们证明了该方法的收敛性,并实现了一种高效算法,能够成功对多个广泛使用的 LLM 进行越狱。

2026-01-09 13:01:14 637

原创 AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreak

近年来,语言模型(LM)在多个领域展现出接近人类的能力。尽管其在实际应用中用户量激增,但仍易受到越狱攻击:恶意输入利用 LMs 的弱点,使其偏离预期行为。现有防御策略要么将输入提示分类为对抗性,要么阻止 LM 生成有害输出。然而,难以解释越狱为何具有恶意,导致大量黑箱方法。本文提出并证明,小语言模型(SLM)的系统提示注意力可用于刻画对抗性提示,提供一种新颖、可解释且成本更低的防御方法——AttentionDefense。研究表明,

2026-01-06 23:09:29 662

原创 【AAAI2026】【大模型越狱】Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models

情境启动(contextual priming)——即早期刺激潜移默化地影响后续判断的现象——为大语言模型(LLM)提供了一种尚未被探索的攻击面。。现有越狱攻击主要依赖单轮或多轮提示操控,或注入静态上下文示例,但这些方法存在效果有限、效率低下或语义漂移等问题。我们提出响应攻击(Response Attack, RA),一种通过。RA 将有害查询改写并注入中间响应,再附以简洁的触发提示,从而利用 LLM 中被忽视的这一漏洞。

2025-12-26 12:20:05 628

原创 Language Models Understand Themselves Better: A Zero-Shot AI-Generated Text Detection Method via R&W

摘要——近年来,大型语言模型(LLMs)的快速发展与广泛应用带来了显著风险,亟需鲁棒的方法来区分 AI 生成内容与人类撰写文本。传统基于训练的方法往往缺乏灵活性,且在新领域适应时常常给出缺乏证据支持的预测,导致可解释性不足。针对这一问题,我们提出了一种名为“读写检测法”(Reading and Writing detection, R&W)的全新零样本检测框架。该方法利用自回归模型评估文本的内在复杂度,并借助自编码模型量化文本重建的难度。

2025-12-25 00:05:31 887

原创 【技术报告解读】DeepSeek-OCR: Contexts Optical Compression

我们提出了 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成:DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活值,同时实现高压缩率,以确保视觉 token 数量可控且高效。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩率小于 10×)时,模型可实现 97% 的 OCR 解码精度。

2025-12-24 16:00:44 1521

原创 The State of Multilingual LLM Safety Research: From Measuring The Language Gap To Mitigating It

本文系统分析了大模型(LLM)安全研究的语言多样性,指出该领域存在显著的“英语中心”现象。通过对 2020–2024 年ACLACL即使高资源非英语语言也极少被关注,且非英语语言很少作为独立研究对象;英语安全研究普遍缺乏语言声明。多语言安全评测、训练数据生成与跨语言安全泛化。据此,社区可构建更稳健、包容的全球 AI 安全体系。内容警告:本文包含有害语言示例。

2025-12-24 13:48:56 797

原创 【IJCNN】DEO: Jailbreak a Black-box Multimodal Large Language Model with Dual-Embedding Alignment

摘要——多模态大语言模型(MLLMs)融合了文本与视觉模态,在众多多模态任务中展现出前所未有的能力。然而,视觉输入的引入也带来了安全风险,其中之一便是越狱攻击。尽管已有多种通过视觉模态对MLLMs实施越狱的方法,但在黑盒场景下的攻击仍存在局限。现有的黑盒攻击要么在实际场景中难以生成精确的恶意输出,要么在构建对抗图像时需要大量前期准备工作。本文提出了一种新颖的攻击方法,,诱导MLLMs产生违反常见AI安全策略的有害响应。具体而言,DEO通过,该共享嵌入空间由一个冻结的预训练编码器定义。

2025-12-23 22:59:10 589

原创 Can LLMs deeply detect complex malicious queries?A framework for jailbreaking via obfuscating intent

本文深入探讨了大型语言模型(LLM)中可能存在的一个安全漏洞,尤其是在识别复杂或模糊查询中的恶意意图方面的能力。我们发现,即使在没有对恶意文本进行修改的情况下,LLM也可能忽视高度伪装请求中的恶意性质,从而暴露其内容分析系统中的重大弱点。具体而言,我们识别并分析了该漏洞的两个方面:(i)LLM在解析极度模糊查询时感知恶意内容的能力下降,(ii)LLM无法识别那些通过修改恶意内容本身而故意增加模糊性的查询中的恶意意图。

2025-12-23 00:14:08 651

原创 【RAG安全】【ACL】The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

检索增强生成(RAG)是一种强大的技术,可将专有和私有数据引入语言模型,其中数据隐私是关键问题。尽管已有大量研究揭示了大语言模型(LLM)的隐私风险,但RAG技术可能重塑LLM生成的固有行为,带来目前尚未充分探索的新隐私问题。本文通过新颖的攻击方法进行了广泛的实证研究,展示了RAG系统在泄露私有检索数据库方面的脆弱性。尽管RAG带来了检索数据方面的新风险,我们进一步揭示,RAG可以缓解LLM训练数据的泄露。总体而言,本文为检索增强LLM的隐私保护提供了新的见解,使LLM和RAG系统构建者均受益。

2025-12-21 02:17:01 581

原创 [AAAI 2026][RAG隐私安全] RAGFort: Dual-Path Defense Against Proprietary Knowledge Base Extraction in RAG

部署在专有知识库上的检索增强生成(RAG)系统面临日益严重的重构攻击威胁:攻击者通过聚合模型回复来复现知识库。此类攻击同时利用类内与类间两条路径——前者在主题内部渐进式提取细粒度知识,后者将知识扩散到语义相关主题,从而实现对原始知识库的全面提取。然而,现有防御仅针对其中一条路径,导致另一条路径暴露。本文系统评估了单独保护每条路径的效果,发现联合防护对有效防御至关重要。通过对比重索引实现类间隔离,通过约束级联生成实现类内保护。

2025-12-20 18:35:27 630

原创 AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents

AI 智能体通过将文本推理与外部工具调用相结合来解决复杂任务。然而,AI 智能体容易受到提示注入攻击,外部工具返回的数据可能劫持智能体,使其执行恶意任务。为了衡量 AI 智能体在对抗环境中的鲁棒性,我们提出了 AgentDojo,一个用于评估智能体在未受信任数据上调用工具的动态框架。为捕捉攻击与防御的不断演化,AgentDojo 并非静态测试集,而是一个可扩展的环境,用于设计和评估新的智能体任务、防御机制以及自适应攻击。

2025-12-18 17:43:11 889

原创 【ICML2024】RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

大型语言模型(LLMs)在不同领域的各项任务中展现出卓越的能力。然而,LLM 中存在的偏见以及在恶意输入下可能生成有害内容的问题,带来了重大挑战。现有的缓解策略虽然在一定程度上有效,但在对抗攻击下缺乏弹性。本文提出了大型语言模型弹性护栏(RigorLLM),这是一个新颖的框架,旨在高效、有效地对 LLM 的输入输出进行有害内容审核。RigorLLM 采用多管齐下的方法,包括通过Langevin 动力学。

2025-12-04 11:11:20 1063

原创 【技术报告详细解读】Llama Guard 3 8B

分类学增加了三类有害类别多语言数据合成(但无中文,合成多语言过度拒绝样本)工具调用和代码解释器:search tool calls / code interpreter abuse 等实际场景 agentic 的恶意数据合成趋势=》1.多模态、多语言、Agentic复杂场景2.细粒度内容风险。

2025-12-03 18:48:20 1000

原创 【技术报告详细解读】Meta Llama Guard 2

之所以没有单独写技术文章是因为相对前一代只是改变了基础模型和分类学,以及用了一个反转标签策略合成hard样本。除此之外没有太多变化。

2025-12-03 17:44:20 777

原创 【技术报告详细解读】Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

我们推出了 Llama Guard,一个面向人机对话场景、基于大语言模型(LLM)的输入-输出安全防护模型。该模型内置一套安全风险分类体系,。为同时支持提示词与响应分类,我们精心收集并标注了一批高质量数据集。,在我们收集的数据集(体量较小)上进行指令微调后,在 OpenAI 审核评估数据集和 ToxicChat 等现有基准上表现强劲,性能达到或超过现有内容审核工具。Llama Guard 作为语言模型,可执行多类别分类并输出二元决策分数。此外,。

2025-12-03 17:11:29 1153 1

原创 【越狱】【AAAI2026】Differentiated Directional Intervention: A Framework for Evading LLM Safety Alignment

安全对齐为大语言模型(LLMs)注入了拒绝恶意请求的关键能力。先前研究将这一拒绝机制建模为激活空间中的单一线性方向。我们认为这是一种过度简化,混淆了两个功能上不同的神经过程:有害性检测与拒绝执行。本文将这一单一表示解构为有害检测方向与拒绝执行方向。基于这一细粒度模型,我们提出了差异化双向干预(DBDI),一种全新的白盒框架,可在关键层精确中和安全对齐。DBDI通过自适应投影归零作用于拒绝执行方向,同时通过直接引导抑制有害检测方向。大量实验表明,DBDI优于主流越狱方法。

2025-12-01 22:19:21 844

原创 【技术报告详细解读】Qwen3Guard Technical Report

随着大型语言模型(LLM)的能力日益增强并被广泛使用,确保其输出安全变得愈发关键。现有的护栏模型虽然在静态评估环境中具有一定作用,但在真实应用场景中存在两大局限:(1)它们;(2)。。两个变体均提供三种规模,支持多达 119 种语言和方言,为全球 LLM 部署提供全面、可扩展且低延迟的内容审核。在英语、汉语及多语言基准测试中,Qwen3Guard 在提示与响应安全分类任务上均达到业界领先性能。所有模型均以 Apache 2.0 许可证公开发布。

2025-12-01 19:03:39 888

原创 【ACL2025】Representation Bending for Large Language Model Safety

大型语言模型(LLM)已成为强大的工具,但其固有的安全风险——从有害内容生成到更广泛的社会危害——带来了重大挑战。这些风险可能因近期的对抗攻击、微调漏洞以及LLM在高风险环境中的日益部署而被放大。现有的安全增强技术,如基于人类反馈的微调或对抗训练,仍然脆弱,因为它们针对特定威胁,通常无法泛化到未见攻击,或需要手动系统级防御。本文提出REPBEND,一种通过从根本上扰乱LLM中有害行为底层表示的新方法,提供可扩展的解决方案以增强(可能是固有的)安全性。REPBEND。

2025-11-30 23:09:06 832

原创 AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection

大型语言模型(LLM)智能体通过结合自然语言推理与外部工具执行,为解决问题提供了强大的新范式。然而,其动态且不透明的行为引入了关键的安全风险,尤其是在面临提示注入攻击时。将智能体运行时追踪视为具有可分析语义的结构化程序。基于此,我们提出了 AgentArmor,一个程序分析框架,该框架将智能体 trace 转换为基于图中间表示的结构化程序依赖表示(例如 CFG、DFG 和 PDG),并通过类型系统强制执行安全策略。AGENTARMOR 包含三个关键组件:(1)

2025-11-17 02:03:26 719

原创 AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

随着大语言模型(LLMs)在实际应用中的广泛部署,确保其能够拒绝恶意提示(尤其是越狱攻击)对于安全可靠的部署至关重要。近年来,激活干预(activation steering)作为一种无需额外后训练即可增强LLM安全性的有效方法逐渐受到关注,其核心思想是在推理过程中向模型内部激活注入一个拒绝方向向量,从而诱导模型产生拒绝行为。然而,不加区分地应用激活干预会在安全性与实用性之间产生根本性权衡:同一干预向量可能导致对良性提示的过度拒绝,进而降低模型在非有害任务上的表现。尽管已有研究尝试通过向量校准或条件干预。

2025-11-15 20:48:48 1072

原创 【Agent安全】【ACL】The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection

大语言模型(LLM)智能体正被广泛部署为可通过工具集成执行复杂现实任务的对话助手。这种与外部系统交互并处理多源数据的能力虽然强大,却也带来显著安全漏洞。其中,间接提示注入攻击攻击者将恶意指令嵌入外部数据源,诱使智能体偏离用户意图。现有防御手段虽具前景,却难以在保持鲁棒安全的同时保留任务功能。将智能体安全从“阻止有害行为”重构为“确保任务对齐”要求每个智能体动作都必须服务于用户目标。基于此洞察,我们设计任务盾(Task Shield),一种测试时防御机制,系统性地验证每条指令与工具调用是否贡献于用户指定目标。

2025-11-13 02:00:37 971

原创 【MCP安全】【EMNLP2025】MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

随着模型上下文协议(MCP)为用户和开发者引入了一个易于使用的生态系统,它也带来了尚未被充分探索的安全风险。其去中心化架构将客户端和服务器分离,给系统性安全分析带来了独特的挑战。本文提出了一个新颖的框架来增强MCP的安全性。在MAESTRO框架的指导下,我们首先分析了MCP中缺失的安全机制,基于这一分析,我们提出了模型上下文完整性协议(MCIP),这是一个弥补了这些差距的MCP改进版本。接下来,我们开发了一个细粒度的分类法用于捕捉在MCP场景中观察到的各种不安全行为。

2025-11-13 00:35:08 911

原创 【MCP安全】MCPGuard : Automatically Detecting Vulnerabilities in MCP Servers

模型上下文协议(MCP)已成为一种标准化接口,使大语言模型(LLM)与外部数据源和工具之间能够无缝集成。尽管 MCP 显著降低了开发复杂度并增强了智能体能力,但其开放性和可扩展性引入了严重的安全漏洞,威胁系统可信性和用户数据保护。本文系统分析了基于 MCP 的系统的安全态势,识别出三类主要威胁:(1)源于协议设计缺陷的智能体劫持攻击;(2)MCP 服务器中的传统 Web 漏洞;(3)供应链安全问题。为应对这些挑战,我们全面调研了现有防御策略,既包括。

2025-11-12 20:27:34 765

原创 【MCP安全】MCP-Guard: A Defense Framework for Model Context Protocol Integrity in LLM Applications

摘要: 本文提出MCP-Guard,一种针对大语言模型(LLM)与工具交互的分层防御架构,通过三阶段检测流水线有效应对提示注入、数据泄露等安全威胁。第一阶段采用轻量级静态扫描快速拦截显性攻击;第二阶段使用微调E5模型检测语义级攻击(准确率96.01%);第三阶段通过LLM仲裁器综合决策以降低误报。同时构建了包含7万样本的MCP-AttackBench基准,模拟真实攻击场景。实验表明全系统准确率达89.63%,在效率与安全性间实现平衡,为LLM生态安全提供可落地的解决方案。

2025-11-12 01:30:45 1084

原创 【RAG安全】Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications

检索增强生成(RAG)通过整合外部知识库扩展了大语言模型(LLM)的知识边界,但知识库的构建往往耗时费力。若攻击者逐字提取知识库内容,不仅严重侵犯所有者的知识产权,还可复制应用功能以进行不正当竞争。现有知识库提取方法要么在基于查询的攻击中覆盖率较低(通常低于4%),要么在基于嵌入的优化方法中假设白盒访问,缺乏现实可行性。本文提出CopyBreakRAG,一种基于智能体的方法,通过,实现。通过与之间的平衡,本方法克服了前人工作的局限,在现实黑盒环境中实现了显著更高的提取覆盖率。

2025-11-09 15:02:38 747

原创 【RAG安全】Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases

借用海盗在公海上劫掠隐藏宝藏的比喻,我们的攻击目标是通过系统化手段发现私有/隐藏的。

2025-11-04 02:53:20 1163

原创 [ICML2025] Safety Alignment Can Be Not Superficial With Explicit Safety Signals

摘要近期关于大型语言模型(LLMs)的安全对齐研究揭示,现有方法大多只是表面化的,使得模型容易受到各种对抗性攻击的影响。尽管这些研究很重要,但它们通常没有提供超出数据增强之外的可行解决方案,以实现更稳健的安全机制。现有的对齐方法通常假设模型能够在对齐过程中隐式地学习与安全相关的推理任务,从而使其能够拒绝有害请求。然而,所学到的安全信号通常会被其他竞争目标所稀释,导致模型在面对对抗性攻击时难以明确地划定一个以安全意识为导向的决策边界。基于这一观察,我们通过。

2025-09-22 23:51:15 1151

原创 CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models

本文提出CodeChameleon框架,用于绕过大型语言模型(LLM)的安全机制。基于LLM安全机制假设(意图识别+响应生成),该方法采用个性化加密函数将恶意查询转化为对齐阶段未出现的格式(如逆序、单词长度等),并通过嵌入解密函数确保模型准确执行。实验在7个LLM(包括GPT-4)和820个有害查询上验证,平均攻击成功率达77.5%,在GPT-4上高达86.6%,显著优于基线方法。框架开源地址:https://github.com/huizhang-L/CodeChameleon。

2025-06-01 22:50:13 999

原创 QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language

最近大型语言模型(LLMs)在自然语言处理领域展现出了显著的潜力。不幸的是,LLMs面临着严重的安全和伦理风险。尽管开发了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的越狱攻击绕过这些防御的可能性。在本文中,我们提出了QueryAttack,这是一个新颖的框架,用于检验安全对齐的泛化能力。通过将LLMs视为知识数据库,我们将自然语言中的恶意查询翻译成结构化的非自然查询语言,以绕过LLMs的安全对齐机制。

2025-06-01 22:02:14 792

原创 Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models

尽管大型推理模型(LRMs)在处理复杂推理任务方面表现出色,但在安全关键场景中的可靠性仍不确定。现有的评估主要关注响应级别的安全性,忽视了我们识别的一个关键问题,即**表面安全对齐(SSA)**——模型产生表面上安全的输出,但内部推理过程未能真正检测和缓解潜在风险,导致在多次采样尝试中安全行为不一致。为了系统地研究SSA,我们引入了Beyond Safe Answers(BSA)基准,这是一个包含2000个挑战性实例的新基准,分为三种SSA场景类型,涵盖九个风险类别,每个类别都详细标注了风险理由。对19个最

2025-05-31 16:07:54 992

原创 【越狱检测】HSF: Defending against Jailbreak Attacks with Hidden State Filtering

本文提出了一种基于隐藏状态过滤器(HSF)的防御策略,旨在防止大型语言模型(LLM)在推理前受到越狱攻击。随着LLM在日常应用中的广泛使用,确保其输出符合人类价值观并避免有害内容变得至关重要。然而,现有的防御方法在应对多样化的越狱提示时效果有限,且计算成本高昂。通过分析LLM的隐藏状态表示空间,我们发现越狱攻击、安全查询和有害查询表现出不同的聚类模式。基于这一观察,HSF利用LLM的隐藏状态表示能力,将防御任务转化为分类问题,通过一个轻量级插件模块在推理前识别并拒绝敌对输入。实验结果表明,HSF显著增强了对

2025-05-13 17:14:57 1028

原创 【越狱检测】Efficient Detection of Toxic Prompts in Large Language Models

大型语言模型(LLMs)如ChatGPT和Gemini在自然语言处理领域取得了显著进展,但也面临恶意提示引发有害内容的风险。现有检测方法在多样性、可扩展性和计算效率方面存在挑战。为此,Yi Liu等人提出了ToxicDetector,一种轻量级灰盒方法,通过分析LLM的嵌入向量来高效检测恶意提示。ToxicDetector利用多层感知器(MLP)分类器,准确率高达96.39%,假阳性率低至2.00%,处理时间仅为0.0780秒,适合实时应用。该方法在多个LLM模型和数据集上表现优异,具有高准确率

2025-05-13 14:22:51 1253

原创 【大模型安全对齐】Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification

大型语言模型容易受到越狱攻击,这种攻击使用精心设计的提示来引发有害的响应。这些攻击利用了llm在生成过程中难以动态检测有害意图的缺陷。传统的安全对齐方法往往依赖于最初的几个生成步骤。本文提出了 DeepAlign,这是一个强大的防御框架,可以微调llm以逐步解毒生成的内容,显着提高计算预算和减少有害生成的有效性。我们的方法使用在隐藏状态上操作的混合损失函数来直接提高llm在生成过程中对毒性的固有意识。此外,我们通过生成有害查询的语义相关答案来重新定义安全响应,从而增加对表示突变攻击的鲁棒性。

2025-05-03 21:49:53 1216

原创 大模型微调时梯度错误检查Debug调试代码

对你自己写的Trainer类重写training_step方法:如下所示。logger在__init__里初始化。

2025-04-02 13:10:11 310

树形DP总结.doc

资深信奥教练整理资料(内部) 树型-动态规划 【算法与数据结构·DP专题】

2016-07-10

背包问题九讲.doc

背包问题九讲.doc 动态规划经典课件!背包型DP。 【算法与数据结构·DP专题】

2016-07-10

NOIP2014 Day2试题

2014年全国信息学奥林匹克联赛 高中组 第二试 题目

2016-07-26

NOI2016 day1试题

全国信息学奥林匹克决赛 NOI 2016 第一试 试题

2016-07-26

NOIP2015 Day1试题

NOIP2015 Day1试题 全国信息学奥林匹克联赛 2015 noip day1

2016-07-26

图论基础ppt

图论基础

2016-07-27

骗分导论.pdf

信息学竞赛

2016-07-10

字符串入门简介 以及 KMP算法

字符串入门简介 以及 KMP算法

2016-07-21

VIM中文手册.pdf

VIM中文手册.pdf

2016-07-27

NOIP暑假模拟考试[题目+数据]清华爷出题 day2

NOIP暑假模拟考试[题目+数据]清华爷出题 day2 第二天题目+数据。

2016-07-22

NOIP2014 测试数据(提高组)

NOIP2014 测试数据(注意里面是Linux换行符,windows下打开可能会有些奇怪(解决措施:用notepad++打开))

2016-07-25

Raspbian [树莓派官方系统BT种子]

Raspbian [树莓派官方系统BT种子]

2016-07-10

NOIP2015复赛提高组数据

全国信息学联赛 NOIP 2015 测试数据

2016-07-27

时间触发嵌入式系统设计模式.pdf

时间触发嵌入式系统设计模式.pdf

2016-07-27

算法心得:高效算法的奥秘(原书第2版).pdf

算法心得:高效算法的奥秘(原书第2版).pdf

2016-07-27

电子设计基础.pdf

电子设计基础.pdf

2016-07-27

NOIP暑假模拟考试[题目+数据]清华爷出题

NOIP暑假模拟考试[题目+数据]清华爷出题 信息学奥赛联赛备考试题

2016-07-21

http协议.doc

http协议.doc

2016-07-08

TCP-IP详解三卷

TCP-IP详解三卷

2016-07-27

NOIP2014 Day1试题

全国信息学奥林匹克联赛 NOIP2014 Day1试题

2016-07-25

倍增与分治

倍增与分治算法

2016-08-03

分治算法在树的路径问题中的应用

分治算法在树的路径问题中的应用

2016-07-29

高级数据结构串讲

高级数据结构串讲课件

2016-07-29

国家集训队2008论文集_矩阵乘法

国家集训队2008论文集_矩阵乘法

2016-07-29

C++_标准模板库(STL)

C++_标准模板库(STL)

2016-07-30

C++_STL使用例子大全

2016-07-30

资源背包动态规划

资源背包动态规划 ——朱全民

2016-08-18

Learning the vi and Vim Editors

《学习Vi和vim编辑器(影印版)》内容为:在过去将近30年的时间里,vi已经成为Unix和Linux的标准编辑器,而从1986年开始《学习Vi和vim编辑器(影印版)》也已成为vi的主要指南。但是现在Unix已经不是三十年前的样子,这《学习Vi和vim编辑器(影印版)》也同样不会是。《学习vi和Vim 第七版》已经进行了扩展,包括了Vim这个主要vi克隆的细节。Vim作为目前绝大多数Linux系统的缺省编辑器和Mac OS X的缺省vi版本,也可以应用于很多其他操作系统。这本指南在讲解文本编辑基础知识的同时,也涵盖了高级工具,例如用交互式的宏和脚本来扩展编辑器的功能——所有这些都用易于理解的方式来传授,这种风格已经让《学习Vi和vim编辑器(影印版)》成为经典。如果你使用Unix和Linux的话,vi和Vim是必备知识,因此,《学习Vi和vim编辑器(影印版)》也是必备之书。你将学到以下内容:, · 高效使用vi, · 深入讲解vi的知识,例如使用缓存, · 使用vi的全局搜索替换功能, · 定制vi以及运行Unix命令.., · 使用Vim的扩展文本对象和强大正则表达式, · 使用多窗口编辑并且编写Vim脚本, · 发挥图形用户界面版的Vim也就是gvim的全部功能, · 使用Vim的增强功能,例如语法高亮和扩展标签, · 将Vim和其他三个vi的克隆nvi、elvis和vile进行比较

2016-07-28

莫比乌斯反演(宋新波)

莫比乌斯反演(宋新波)

2016-08-03

数据结构资料

数据结构资料 含 线段树 字典树 BIT 并查集 平衡二叉树 表达式求值

2016-07-30

国际奥赛题全解(信息学

国际奥赛题全解(信息学

2016-07-28

福建省队集训资料

福建省队集训资料

2016-07-28

区间类型动态规划

区间类型动态规划 -长沙雅礼中学著名教练 朱全民

2016-08-18

【算法与数据结构】 树链剖分

【算法与数据结构】 树链剖分

2016-07-29

考研基础班高等数学讲义

考研基础班高等数学讲义

2016-07-28

Pollard Rho算法思想

Pollard Rho算法思想

2016-07-28

浅谈分块思想在一类数据处理问题中的应用

浅谈分块思想在一类数据处理问题中的应用 【分块-入门讲义】

2016-10-04

Git零基础实战

Git零基础实战

2016-07-29

WINDOWS核心编程

WINDOWS核心编程

2016-07-29

NOIP2015_day2试题

全国信息学奥林匹克竞赛试题 noip 2015 二试

2016-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除