- 博客(1442)
- 资源 (64)
- 收藏
- 关注
原创 【大模型安全对齐/超越表面对齐】Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism
解决大模型表面安全对齐的防御微调方法
2025-09-20 02:53:59
916
原创 AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection
大型语言模型(LLM)智能体通过结合自然语言推理与外部工具执行,为解决问题提供了强大的新范式。然而,其动态且不透明的行为引入了关键的安全风险,尤其是在面临提示注入攻击时。将智能体运行时追踪视为具有可分析语义的结构化程序。基于此,我们提出了 AgentArmor,一个程序分析框架,该框架将智能体 trace 转换为基于图中间表示的结构化程序依赖表示(例如 CFG、DFG 和 PDG),并通过类型系统强制执行安全策略。AGENTARMOR 包含三个关键组件:(1)
2025-11-17 02:03:26
281
原创 AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint
随着大语言模型(LLMs)在实际应用中的广泛部署,确保其能够拒绝恶意提示(尤其是越狱攻击)对于安全可靠的部署至关重要。近年来,激活干预(activation steering)作为一种无需额外后训练即可增强LLM安全性的有效方法逐渐受到关注,其核心思想是在推理过程中向模型内部激活注入一个拒绝方向向量,从而诱导模型产生拒绝行为。然而,不加区分地应用激活干预会在安全性与实用性之间产生根本性权衡:同一干预向量可能导致对良性提示的过度拒绝,进而降低模型在非有害任务上的表现。尽管已有研究尝试通过向量校准或条件干预。
2025-11-15 20:48:48
832
原创 【Agent安全】【ACL】The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection
大语言模型(LLM)智能体正被广泛部署为可通过工具集成执行复杂现实任务的对话助手。这种与外部系统交互并处理多源数据的能力虽然强大,却也带来显著安全漏洞。其中,间接提示注入攻击攻击者将恶意指令嵌入外部数据源,诱使智能体偏离用户意图。现有防御手段虽具前景,却难以在保持鲁棒安全的同时保留任务功能。将智能体安全从“阻止有害行为”重构为“确保任务对齐”要求每个智能体动作都必须服务于用户目标。基于此洞察,我们设计任务盾(Task Shield),一种测试时防御机制,系统性地验证每条指令与工具调用是否贡献于用户指定目标。
2025-11-13 02:00:37
874
原创 【MCP安全】【EMNLP2025】MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol
随着模型上下文协议(MCP)为用户和开发者引入了一个易于使用的生态系统,它也带来了尚未被充分探索的安全风险。其去中心化架构将客户端和服务器分离,给系统性安全分析带来了独特的挑战。本文提出了一个新颖的框架来增强MCP的安全性。在MAESTRO框架的指导下,我们首先分析了MCP中缺失的安全机制,基于这一分析,我们提出了模型上下文完整性协议(MCIP),这是一个弥补了这些差距的MCP改进版本。接下来,我们开发了一个细粒度的分类法用于捕捉在MCP场景中观察到的各种不安全行为。
2025-11-13 00:35:08
786
原创 【MCP安全】MCPGuard : Automatically Detecting Vulnerabilities in MCP Servers
模型上下文协议(MCP)已成为一种标准化接口,使大语言模型(LLM)与外部数据源和工具之间能够无缝集成。尽管 MCP 显著降低了开发复杂度并增强了智能体能力,但其开放性和可扩展性引入了严重的安全漏洞,威胁系统可信性和用户数据保护。本文系统分析了基于 MCP 的系统的安全态势,识别出三类主要威胁:(1)源于协议设计缺陷的智能体劫持攻击;(2)MCP 服务器中的传统 Web 漏洞;(3)供应链安全问题。为应对这些挑战,我们全面调研了现有防御策略,既包括。
2025-11-12 20:27:34
689
原创 【MCP安全】MCP-Guard: A Defense Framework for Model Context Protocol Integrity in LLM Applications
摘要: 本文提出MCP-Guard,一种针对大语言模型(LLM)与工具交互的分层防御架构,通过三阶段检测流水线有效应对提示注入、数据泄露等安全威胁。第一阶段采用轻量级静态扫描快速拦截显性攻击;第二阶段使用微调E5模型检测语义级攻击(准确率96.01%);第三阶段通过LLM仲裁器综合决策以降低误报。同时构建了包含7万样本的MCP-AttackBench基准,模拟真实攻击场景。实验表明全系统准确率达89.63%,在效率与安全性间实现平衡,为LLM生态安全提供可落地的解决方案。
2025-11-12 01:30:45
956
原创 【RAG安全】Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications
检索增强生成(RAG)通过整合外部知识库扩展了大语言模型(LLM)的知识边界,但知识库的构建往往耗时费力。若攻击者逐字提取知识库内容,不仅严重侵犯所有者的知识产权,还可复制应用功能以进行不正当竞争。现有知识库提取方法要么在基于查询的攻击中覆盖率较低(通常低于4%),要么在基于嵌入的优化方法中假设白盒访问,缺乏现实可行性。本文提出CopyBreakRAG,一种基于智能体的方法,通过,实现。通过与之间的平衡,本方法克服了前人工作的局限,在现实黑盒环境中实现了显著更高的提取覆盖率。
2025-11-09 15:02:38
683
原创 【RAG安全】Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases
借用海盗在公海上劫掠隐藏宝藏的比喻,我们的攻击目标是通过系统化手段发现私有/隐藏的。
2025-11-04 02:53:20
1050
原创 [ICML2025] Safety Alignment Can Be Not Superficial With Explicit Safety Signals
摘要近期关于大型语言模型(LLMs)的安全对齐研究揭示,现有方法大多只是表面化的,使得模型容易受到各种对抗性攻击的影响。尽管这些研究很重要,但它们通常没有提供超出数据增强之外的可行解决方案,以实现更稳健的安全机制。现有的对齐方法通常假设模型能够在对齐过程中隐式地学习与安全相关的推理任务,从而使其能够拒绝有害请求。然而,所学到的安全信号通常会被其他竞争目标所稀释,导致模型在面对对抗性攻击时难以明确地划定一个以安全意识为导向的决策边界。基于这一观察,我们通过。
2025-09-22 23:51:15
1082
原创 CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models
本文提出CodeChameleon框架,用于绕过大型语言模型(LLM)的安全机制。基于LLM安全机制假设(意图识别+响应生成),该方法采用个性化加密函数将恶意查询转化为对齐阶段未出现的格式(如逆序、单词长度等),并通过嵌入解密函数确保模型准确执行。实验在7个LLM(包括GPT-4)和820个有害查询上验证,平均攻击成功率达77.5%,在GPT-4上高达86.6%,显著优于基线方法。框架开源地址:https://github.com/huizhang-L/CodeChameleon。
2025-06-01 22:50:13
957
原创 QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language
最近大型语言模型(LLMs)在自然语言处理领域展现出了显著的潜力。不幸的是,LLMs面临着严重的安全和伦理风险。尽管开发了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的越狱攻击绕过这些防御的可能性。在本文中,我们提出了QueryAttack,这是一个新颖的框架,用于检验安全对齐的泛化能力。通过将LLMs视为知识数据库,我们将自然语言中的恶意查询翻译成结构化的非自然查询语言,以绕过LLMs的安全对齐机制。
2025-06-01 22:02:14
767
原创 Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models
尽管大型推理模型(LRMs)在处理复杂推理任务方面表现出色,但在安全关键场景中的可靠性仍不确定。现有的评估主要关注响应级别的安全性,忽视了我们识别的一个关键问题,即**表面安全对齐(SSA)**——模型产生表面上安全的输出,但内部推理过程未能真正检测和缓解潜在风险,导致在多次采样尝试中安全行为不一致。为了系统地研究SSA,我们引入了Beyond Safe Answers(BSA)基准,这是一个包含2000个挑战性实例的新基准,分为三种SSA场景类型,涵盖九个风险类别,每个类别都详细标注了风险理由。对19个最
2025-05-31 16:07:54
940
原创 ICLR 24 Workshop # INITIAL RESPONSE SELECTION FOR PROMPT JAILBREAKING USING MODEL STEERING
越狱提示是使 LLM 创建不安全内容的输入,对 LLM 的安全部署构成重大威胁。传统的越狱方法依赖于优化恶意提示以生成肯定的初始响应,并假设有害内容的生成持续进行。然而,这些初始响应的有效性可能存在差异,从而影响后续有害输出的可能性。本研究重点探讨了选择合适的初始响应的重要性及其随之而来的挑战。我们提出了一种新方法,该方法利用模型转向来有效地选择可能导致攻击成功的初始响应。我们的实验表明,该方法可以显著提高我们选择合适初始响应的准确性,从而提高攻击成功率。
2025-05-27 23:41:22
941
原创 【越狱检测】HSF: Defending against Jailbreak Attacks with Hidden State Filtering
本文提出了一种基于隐藏状态过滤器(HSF)的防御策略,旨在防止大型语言模型(LLM)在推理前受到越狱攻击。随着LLM在日常应用中的广泛使用,确保其输出符合人类价值观并避免有害内容变得至关重要。然而,现有的防御方法在应对多样化的越狱提示时效果有限,且计算成本高昂。通过分析LLM的隐藏状态表示空间,我们发现越狱攻击、安全查询和有害查询表现出不同的聚类模式。基于这一观察,HSF利用LLM的隐藏状态表示能力,将防御任务转化为分类问题,通过一个轻量级插件模块在推理前识别并拒绝敌对输入。实验结果表明,HSF显著增强了对
2025-05-13 17:14:57
954
原创 【越狱检测】Efficient Detection of Toxic Prompts in Large Language Models
大型语言模型(LLMs)如ChatGPT和Gemini在自然语言处理领域取得了显著进展,但也面临恶意提示引发有害内容的风险。现有检测方法在多样性、可扩展性和计算效率方面存在挑战。为此,Yi Liu等人提出了ToxicDetector,一种轻量级灰盒方法,通过分析LLM的嵌入向量来高效检测恶意提示。ToxicDetector利用多层感知器(MLP)分类器,准确率高达96.39%,假阳性率低至2.00%,处理时间仅为0.0780秒,适合实时应用。该方法在多个LLM模型和数据集上表现优异,具有高准确率
2025-05-13 14:22:51
1186
原创 【大模型安全对齐】Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification
大型语言模型容易受到越狱攻击,这种攻击使用精心设计的提示来引发有害的响应。这些攻击利用了llm在生成过程中难以动态检测有害意图的缺陷。传统的安全对齐方法往往依赖于最初的几个生成步骤。本文提出了 DeepAlign,这是一个强大的防御框架,可以微调llm以逐步解毒生成的内容,显着提高计算预算和减少有害生成的有效性。我们的方法使用在隐藏状态上操作的混合损失函数来直接提高llm在生成过程中对毒性的固有意识。此外,我们通过生成有害查询的语义相关答案来重新定义安全响应,从而增加对表示突变攻击的鲁棒性。
2025-05-03 21:49:53
1112
原创 大模型微调时梯度错误检查Debug调试代码
对你自己写的Trainer类重写training_step方法:如下所示。logger在__init__里初始化。
2025-04-02 13:10:11
271
原创 DeepSpeed LoRa微调时: RuntimeError: element 0 of tensors does not require grad and does not have a grad
model.enable_input_require_grads() 在使用 PEFT(Parameter-Efficient Fine-Tuning)与梯度检查点(gradient checkpointing)结合时起着关键作用。解决方案:model.enable_input_require_grads() 通过注册一个前向钩子,强制模型在前向传播过程中保留输入的梯度信息,即使这些输入来自冻结的部分,确保梯度能正确传播到 LoRA 参数。启用enable_input_require_grads功能。
2025-04-02 13:04:17
569
原创 【大模型提效】Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models
探索性数据分析 (EDA) 与 SQL 相结合,对于涉及数据探索和分析的数据分析师至关重要。然而,数据分析师经常面临两个主要挑战:(1)需要巧妙地制作 SQL 查询,以及(2)需要生成合适的可视化类型来增强查询结果的解释。由于其重要性,已经进行了大量研究工作来探索解决这些挑战的不同方法,包括利用大型语言模型 (LLM)。然而,现有的方法不能满足现实世界的数据探索要求,主要是由于(1)复杂的数据库模式;(2)用户意图不明确;(3)跨域泛化能力有限;(4)端到端文本到可视化能力不足。
2025-03-21 23:05:23
875
4
原创 【大模型提效】Chat2Query: A Zero-Shot Automatic Exploratory Data Analysis System with Large Language Models
数据分析师在 SQL 进行探索性数据分析时经常遇到两个主要挑战:(1)需要巧妙地制作 SQL 查询,(2)需要生成合适的可视化来增强查询结果的解释。大型语言模型 (LLM) 的出现引发了文本到 SQL 和数据到文本的范式转变。本文介绍了 Chat2Query,这是一个 LLM 赋能的零样本自动探索数据分析系统。首先,Chat2Query 提供了一个用户友好的界面,允许用户使用自然语言直接与数据库交互。
2025-03-21 00:12:45
772
原创 【大模型越狱】【CodeAttack】Exploring Safety Generalization Challenges of Large Language Models via Code
大型语言模型 (LLM) 的快速发展为自然语言处理带来了显着的能力,但也引发了对其潜在滥用的担忧。虽然来自人类反馈的监督微调和强化学习等策略提高了他们的安全性,但这些方法主要集中在自然语言上,可能无法推广到其他领域。本文介绍了CodeAttack,这是一个将自然语言输入转换为代码输入的框架,为测试llm的安全泛化提供了新的环境。
2025-03-11 01:24:40
1052
1
原创 fastchat 支持llama3 & harmbench PAIR攻击支持 llama3
fastchat 一年没发版了,但是代码里是支持 llama3 的,参考这里直接修改pip依赖源码:https://github.com/lm-sys/FastChat/blob/main/fastchat/conversation.py#L164。【搜LLAMA3关键字】只有几处;
2025-02-27 20:16:54
373
原创 【大模型越狱】【NeurIPS 2023】 Jailbroken: How Does LLM Safety Training Fail?
经过安全和无害训练的大型语言模型仍然容易受到对抗性滥用,对 ChatGPT 早期版本的普遍“越狱”攻击就证明了这一点,这些攻击会引发不良行为。除了认识到问题之外,我们还调查了此类攻击成功的原因以及如何创建它们。我们假设安全训练的两种失败模式:竞争目标(competing objectives)和不匹配的泛化(mismatched generalization)。
2025-01-14 00:23:40
1383
原创 教程 # 从 Transformers 库开始学习 NLP # 1 NLP基础与Transformer基础
UNILM 模型通过给 Transformer 中的 Self-Attention 机制添加不同的 MASK 矩阵,在不改变 BERT 模型结构的基础上同时实现了双向、单向和序列到序列(Sequence-to-Sequence,Seq2Seq)语言模型,是一种对 BERT 模型进行扩展的优雅方案。大部分情况下,我们都不会从头训练模型,而是将别人预训练好的模型权重通过迁移学习应用到自己的模型中,即使用自己的任务语料对模型进行“二次训练”,通过微调参数使模型适用于新任务。
2025-01-09 00:39:00
1408
原创 【大模型安全】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING
本研究针对大型语言模型(LLMs)安全调优实践中的关键差距,通过识别和解决安全调优数据中的 refusal position bias,该偏差损害了模型拒绝生成不安全内容的能力。我们引入了一种新颖的方法,解耦拒绝训练(DeRTa),旨在使 LLMs 能够在任何响应位置拒绝有害提示,显著提高其安全性。DeRTa 包含两个新颖组件:(1)带有有害响应前缀的最大似然估计(MLE),通过在安全响应的开头添加一段有害响应来训练模型识别和避免不安全内容;
2025-01-06 12:35:11
1276
原创 Refusal in Language Models Is Mediated by a Single Direction
会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这项工作中,我们展示了拒绝是由一维子空间介导的,涉及 13 个流行的开源聊天模型,参数大小高达 72B。具体来说,对于每个模型,我们找到一个单一方向,这样从模型的残余流激活(residual stream activations)中删除该方向可以防止其拒绝有害指令,而添加该方向会导致拒绝甚至无害的指令。利用这一见解,我们提出了一种新颖的白盒越狱方法。
2024-12-24 00:23:07
1662
原创 [NeurIPS 2024] Improving Alignment and Robustness with Circuit Breakers
人工智能系统可能会采取有害行为,并且非常容易受到对抗性攻击。受表示工程最新进展的启发,我们提出了一种方法,当模型用“断路器”响应有害输出时,该方法会中断模型。旨在改善一致性的现有技术,例如拒绝训练,经常被绕过。对抗性训练等技术试图通过对抗特定攻击来堵塞这些漏洞。作为拒绝训练和对抗性训练的替代方案,circuit-breaking 首先直接控制那些造成有害输出的表征。我们的技术可以应用于纯文本和多模式语言模型,以防止有害输出的生成,而不会牺牲实用性——即使存在强大的看不见的攻击。
2024-12-16 00:38:33
900
1
原创 [COLM 2024] V-STaR: Training Verifiers for Self-Taught Reasoners
大型语言模型 (LLMs) 的常见自我改进方法(例如 STaR)会在自我生成的解决方案上迭代微调 LLMs,以提高其解决问题的能力。然而,这些方法丢弃了在此过程中生成的大量不正确的解决方案,可能忽略了此类解决方案中的有价值的信息。为了解决这个缺点,我们提出了 V-STaR,它利用自我改进过程中生成的所有正确和错误的解决方案来训练使用 DPO 的验证器,以判断模型生成的解决方案的正确性。该验证器用于在推理时从许多候选解决方案中选择一个解决方案。
2024-12-11 19:32:16
1263
原创 [NeurlPS 2022] STaR 开源代码实现解读
结合代码以及论文解读现在重新来理解论文。论文基本思路是,先给出few-shot,让模型参考few-shot在回答answer前带上rationales,如果回答不正确,就加上hint回答,最终把回答正确的样本留下进行下一轮微调。在具体代码实现上,首先在 eval_examples 中,对样本做了个 batch 级别的 cache,每满8个,才执行对应的推理(回答)。这里维护了两个cache 队列,一个是回答正确的队列,一个是直接回答失败的队列(因此,用合理化修改了原始prompt)。
2024-12-08 23:43:13
1280
原创 [NeurlPS 2022] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
生成逐步的“思维链”理由(rationales)能够提高语言模型在复杂推理任务上的表现,比如数学或常识问答。然而,目前诱导语言模型生成理由要么需要构建庞大的理由数据集,要么只能通过少量样本推理牺牲准确性。我们提出了一种技术,通过迭代利用少量理由示例和一个没有理由的大型数据集,来引导模型逐渐掌握更复杂的推理能力。生成理由以回答许多问题,提示一些理由示例;如果生成的答案是错误的,尝试在给定正确答案的情况下再次生成理由;对所有最终得出正确答案的理由进行微调;重复这个过程。
2024-12-05 00:14:56
965
原创 Machine Learning is All You Need: A Simple Token-based Approach for Effective Code Clone Detection
本文介绍了一种名为 Toma 的代码克隆检测方法,它使用令牌和机器学习来检测代码克隆。通过提取令牌类型序列并使用六种相似度计算方法生成特征向量,然后将这些向量输入到训练好的机器学习模型中进行分类。实验结果表明,Toma在效率和可扩展性方面都优于基于令牌的代码克隆检测器和大多数基于树的克隆检测器。数据集:BigCloneBench。
2024-11-29 01:57:05
1187
原创 推荐系统 # 三、推荐系统排序层:粗排/精排、融分、排序模型特征工程
本文详细介绍了推荐系统中的排序层,对粗排、精排算法进行了介绍,同时介绍了多目标模型、MMoE模型、估分和融分、排序模型特征工程等相关知识。
2024-10-30 19:21:10
695
原创 推荐系统 # 二、推荐系统召回:协同过滤 ItemCF/UserCF、离散特征处理、双塔模型、自监督学习、多路召回、曝光过滤
线上环境:缺点:社群对算法的误导。
2024-10-19 23:58:18
908
原创 软件安全漏洞分析与发现 复习笔记
略。查ppt。修正:上图中的语句2 的可到达语句不包括4。定义集合我们先确定每个语句的 Gen 和 Kill 集合:路径分析接下来我们分析从入口到 [9] 的所有路径:在每个路径上,我们计算每个语句的 In 和 Out 集合。路径1: [0] -> [1] -> [2] -> [3] -> [4] -> [5] -> [9]In(0) = {}
2024-06-12 16:53:09
1307
原创 Orange Pi AI Pro 开箱 记录
香橙派 AIpro配备了强大的硬件配置,包括8GB内存、电源、散热组件和32GB存储卡。这些硬件为AI开发提供了充足的资源和稳定的运行环境。OrangePi AIpro(8T)采用昇腾AI技术路线,4核64位处理器+AI处理器,集成图形处理器,支持8TOPS AI算力,拥有8GB/16GB LPDDR4X,可以外接32GB/64GB/128GB/256GB eMMC模块,支持双4K高清输出。
2024-06-06 21:44:03
1372
1
原创 Neo4j+LLM+RAG 环境配置报错处理
打开Neo4j的配置文件(通常是neo4j.conf),找到dbms.security.procedures.unrestricted这一项。确保该项设置为允许使用apoc插件。你可以将其设置为apoc.*,这将允许所有apoc的过程,或者你也可以根据需要设置更具体的值。解决方案,安装插件。我的版本是:neo4j-community-4.4.26。重启Neo4j:保存配置文件并重启Neo4j数据库,以使新的安全设置生效。下载对应的:apoc-4.4.0.26-all.jar。没有安装APOC插件。
2024-05-05 16:53:55
4404
3
原创 USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》
ALASTOR 是一个基于溯源的审计框架(provenance-based auditing framework),用于精确跟踪无服务器应用中的可疑事件。无服务器计算将传统应用分解成短暂的、可重入的函数,使攻击者能够在合法工作流中隐藏其活动,并通过滥用暖容器重用策略破坏因果路径来阻止根因分析。ALASTOR 记录函数活动,在系统和应用层捕获每个函数实例的行为全貌,然后将来自不同函数的溯源信息在无服务器平台的中央仓库聚合起来,生成复杂函数工作流的全局数据溯源图。
2024-03-13 22:33:45
1297
2
C++_STL使用例子大全
2016-07-30
Learning the vi and Vim Editors
2016-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅