LLM Security and Privacy
文章平均质量分 73
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Bits Leaked per Query: Information-Theoretic Bounds for Adversarial Attacks on LLMs
问题定位:LLM为提升透明度会暴露答案令牌、思维过程(如链式推理)、logits等可观测信号,但这些信号可能被攻击者利用,用于系统提示泄露、越狱攻击、重学习攻击(恢复模型本应遗忘的信息)等场景。目前缺乏量化信号泄露风险与攻击成本的理论依据,导致开发者难以平衡透明度与安全性。核心框架:将攻击过程建模为信息通道,定义观测信号Z与目标属性T(如攻击成功标志、隐藏系统提示)的互信息IZ;TI(Z;T)IZ;T为“每查询泄露比特数”,并证明攻击达到误差ε所需的最小查询数满足Nminε∝。原创 2026-04-09 09:33:29 · 18 阅读 · 0 评论 -
2025_NIPS_CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edg...
专有大语言模型(LLMs)在各类任务中展现出强大的泛化能力,且出于效率和隐私考虑,正日益多地部署在边缘设备上。然而,在边缘设备上部署专有LLMs时若缺乏充分保护,将引入严重的安全威胁。攻击者可提取模型权重和架构,实现未授权复制与滥用。即便防护措施阻止了模型权重的完整提取,攻击者仍可能实施微调等高级攻击以进一步利用模型。现有针对这些威胁的防护方案通常会产生显著的计算和通信开销,使其难以适用于边缘部署场景。为保护边缘部署的LLMs,本文提出CoreGuard——一种计算与通信高效的防护方法。原创 2026-04-12 10:30:00 · 26 阅读 · 0 评论 -
2025_NIPS_Memory Injection Attacks on LLM Agents via Query-Only Interaction
该研究提出一种名为MINJA的新型记忆注入攻击,针对大型语言模型(LLM)智能体,仅通过查询交互即可向智能体的长期记忆库注入恶意记录。攻击核心是设计包含“桥接步骤”的恶意记录,将良性查询与恶意推理逻辑关联,再通过“指示提示词”诱导智能体自主生成相关推理,并采用“渐进缩短策略”逐步移除提示词痕迹,使恶意记录能被后续受害者查询高效检索。原创 2026-03-23 15:00:00 · 289 阅读 · 0 评论 -
2025_NIPS_Virus Infection Attack on LLMs: Your Poisoning Can Spread “VIA” Synthetic Data
聚焦合成数据在大语言模型(LLM)训练中的安全风险,发现现有数据投毒和后门攻击难以通过合成数据传播,核心原因是投毒内容的查询分布占比极低(仅0.00%-0.24%)。提出通用攻击框架,模拟计算机病毒传播机制,通过“劫持点搜索”和“外壳构建”将投毒载荷嵌入良性样本,实现投毒内容在纯净查询下的跨模型传播。多场景实验验证(情感操控、知识注入、偏见推荐等)显示,VIA可将合成数据中的投毒感染率(IR)从不足1%提升至70%以上,下游模型攻击成功率(ASR)接近上游投毒模型水平。原创 2026-03-21 14:30:00 · 24 阅读 · 0 评论 -
2025_NIPS_Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
该研究聚焦大语言模型(LLM)水印技术面临的擦除攻击(scrubbing)和伪造攻击(spoofing)困境,提出了基于“等效纹理密钥”(equivalent texture keys)的水印方案 SEEK(Sub-vocabulary decomposed Equivalent tExture Key)。核心突破是打破了传统水印中“窗口大小”与两种攻击抗性的固有权衡,通过子词汇表分解机制,在不降低文本质量的前提下,实现了帕累托最优的攻击防御效果。原创 2026-03-21 08:30:00 · 21 阅读 · 0 评论 -
2025_NIPS_Analogy-based Multi-Turn Jailbreak against Large Language Models
大型语言模型(LLMs)本质上支持多轮交互,这为越狱攻击开辟了新可能——此类攻击可逐步展开,相比单轮攻击更有可能有效绕过安全机制。然而,当前多轮越狱方法仍处于初级阶段,存在两大关键局限:其一,这些方法均需在上下文中插入敏感短语,导致对话显得可疑,增加被拒绝的概率,从而削弱攻击效果;其二,即使生成了有害内容,由于语义漂移(对话逐渐偏离预期目标),响应往往无法与恶意提示对齐。为解决这些挑战,我们提出一种基于类比的黑盒多轮越狱框架,通过构建完全良性的上下文来提高攻击成功率,同时确保与恶意意图的语义对齐。原创 2026-03-20 07:30:00 · 24 阅读 · 0 评论 -
2025_NIPS-STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model
近年来,可证明安全语言隐写术(PSLS)方法依赖主流自回归语言模型(ARMs)解决具有历史挑战性的任务,即把隐蔽通信伪装成“无害”的自然语言通信。然而,由于ARMs的序列生成特性,基于ARM的PSLS方法生成的隐写文本一旦被篡改就会产生严重的误差传播,导致现有方法在主动篡改攻击下失效。为解决这一问题,我们提出了一种基于扩散语言模型(DLMs)的鲁棒可证明安全语言隐写术。与ARMs不同,DLMs能够以部分并行的方式生成文本,使我们能够找到用于隐写嵌入的鲁棒位置,并结合纠错码进行优化。原创 2026-03-19 07:30:00 · 21 阅读 · 0 评论 -
2025_NIPS_Towards Building Model/Prompt-Transferable Attackers against Large Vision-Language Models
尽管大型视觉语言模型(LVLMs)展现出令人印象深刻的多模态能力,但它们对对抗样本的脆弱性引发了严重的安全担忧。现有LVLM攻击方法仅优化易过拟合特定模型/提示的对抗图像,导致其在迁移攻击不同模型/提示时失效。受这一研究缺口的启发,本文旨在开发一种更强大的攻击方法,能够迁移至不同结构的黑盒LVLM模型和不同语义的任务感知提示。具体而言,我们引入信息论的新视角,通过探索LVLM模型输出与输入对抗样本之间的相对依赖关系,研究LVLMs的迁移特性。原创 2026-03-17 09:30:00 · 111 阅读 · 0 评论 -
2025_NIPS_SAFEX: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Ident
该研究聚焦基于混合专家(MoE)架构的大型语言模型(LLMs)的安全对齐问题,核心围绕MoE特有的“位置脆弱性”展开——即模型的安全对齐行为高度依赖特定专家模块。为此,研究者提出了名为SAFEX的分析框架,通过三步流程(专家统计、专家识别、专家验证)系统识别、表征和验证安全关键专家,并将其划分为两个功能组:有害内容检测组(HCDG)和有害响应控制组(HRCG)。原创 2026-03-10 10:30:00 · 67 阅读 · 0 评论 -
2025_NIPS_Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audi
大型语言模型(LLMs)在各类自然语言处理任务中展现出令人瞩目的零样本性能。整合多种模态编码器进一步拓展了其能力边界,催生了多模态大型语言模型(MLLMs)——这类模型不仅能处理文本,还可接收视觉和听觉模态输入。然而,这些先进功能也可能带来严重的安全问题:攻击者可通过越狱攻击诱导模型生成有害或不当内容。尽管已有研究广泛探索了如何通过操纵文本或视觉模态输入绕过LLMs和MLLMs的安全防护,但针对大型音频语言模型(LALMs)的音频特定越狱漏洞,相关研究仍严重不足。原创 2026-02-27 09:30:00 · 163 阅读 · 0 评论 -
2025_NIPS_LoRO: Real-Time on-Device Secure Inference for LLMs via TEE-Based Low Rank Obfuscation
尽管大语言模型(LLMs)已取得显著成功,但它们在不可信边缘设备上部署时始终面临被窃取的风险。对此,基于可信执行环境(TEE)的安全推理方案被提出以保护宝贵的模型资产。然而,我们发现现有保护方法存在统计漏洞,并通过提出的带先验知识的模型窃取攻击(Model Stealing Attack with Prior)进一步削弱了其安全性保障。为消除该漏洞,本文提出LoRO框架,利用稠密掩码对模型参数进行完全混淆。原创 2026-02-14 08:30:00 · 32 阅读 · 0 评论 -
2025_NIPS_The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense
攻击易发性:VLLMs 易遭越狱攻击的根源是视觉输入的引入,而非灾难性遗忘或微调问题,视觉输入会破坏基础 LLM 的安全护栏。防御伪高效:现有防御机制(如安全监督微调、系统提示保护)的高性能源于“过度谨慎”,会对良性输入无差别拒绝,损害模型实用性;且规则型与模型型两种评估方法一致性极低,导致防御效果误判。解决方案:提出“LLM-Pipeline”方法,复用先进 LLM 的安全护栏作为无视觉检测器,先判断文本查询(含可选图像描述)的危害性,再由 VLLM 生成响应,在安全性与实用性间实现平衡。原创 2026-02-11 08:30:00 · 102 阅读 · 0 评论 -
2025_NIPS_Inference-Time Reward Hacking in Large Language Models
该研究聚焦大型语言模型(LLM)推理时的奖励篡改问题——因代理奖励(可计算的评分指标)与真实奖励(潜在的正确性、有用性等目标)存在偏差,过度优化代理奖励会导致模型违背预期对齐目标(即奖励篡改)。研究通过数学建模证明了BoN(Best-of-n)等推理时对齐方法中奖励篡改的必然性,提出了新的推理时对齐策略BoP(Best-of-Poisson)和参数调优算法HedgeTune,在数学、推理和人类偏好任务中验证了其能有效平衡奖励与分布偏差,缓解奖励篡改。改进大型语言模型性能的常用范式是优化奖励模型。原创 2026-02-09 12:30:00 · 641 阅读 · 0 评论 -
2025_NIPS_Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment
多模态大语言模型(MLLMs)仍然容易受到可迁移对抗样本的攻击。现有方法通常通过对齐对抗样本与目标样本之间的全局特征(如CLIP的[CLS]令牌)来实现靶向攻击,但往往忽略了补丁令牌中编码的丰富局部信息。这导致对齐效果欠佳且迁移性有限,尤其对于闭源模型而言。为解决这一局限,我们提出一种基于特征最优对齐的靶向迁移对抗攻击方法,名为FOA-Attack,以提升对抗迁移能力。具体而言,在全局层面,我们引入基于余弦相似度的全局特征损失,使对抗样本的粗粒度特征与目标样本对齐;原创 2026-01-31 16:30:00 · 167 阅读 · 0 评论 -
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors
主要内容研究背景与问题现有大语言模型(LLM)的安全防御在“分解攻击”下失效——攻击者将恶意目标分解为多个看似良性的子任务,绕过模型的拒绝机制。传统防御仅检测即时提示中的显式危害,无法推理长程恶意意图。核心方法数据集构建:创建了首个涵盖问答(QA)、文本到图像(Text-to-Image)和智能体任务(Agent)的多场景分解攻击数据集,验证了分解攻击的普遍性(如GPT-4o平均攻击成功率87%)。轻量级顺序监测框架:通过累积评估对话历史中的子任务,检测隐藏的恶意意图。原创 2026-01-30 14:30:00 · 28 阅读 · 0 评论 -
SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
本文聚焦多模态大语言模型(MLLMs)的安全问题,针对其易受多模态越狱攻击的 vulnerabilities,提出了一种名为SafePTR的防御框架。现有防御方法(如图文转换、安全提示词、多模态安全微调)存在缺陷:易受文本驱动的越狱攻击、过度防御导致效用下降、训练开销大且泛化能力弱。通过分析,作者发现MLLMs中仅早期-中期层中不到1%的有害token会引发不安全行为,这些token通过语义偏移(偏离安全对齐表示)绕过安全机制。原创 2026-01-28 13:30:00 · 129 阅读 · 0 评论 -
2025_NIPS_On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks
大型语言模型(LLMs)生成的鲁棒言语置信度,对于LLMs的部署至关重要,有助于确保包括人机交互在内的众多应用场景中的透明度、信任度和安全性。本文首次针对对抗攻击下言语置信度的鲁棒性开展全面研究。我们提出了通过扰动和基于越狱两种方法来攻击言语置信度分数的框架,并证明这些攻击会显著损害言语置信度估计结果,且导致频繁的答案变化。我们考察了多种提示策略、模型规模和应用领域,发现当前的言语置信度具有脆弱性,且常用的防御技术大多无效或产生反效果。原创 2026-01-23 12:30:00 · 50 阅读 · 0 评论 -
2025_NIPS_ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio–Language Models
该研究针对音频语言模型(ALMs)面临的特定越狱攻击问题,提出了首个专门适配ALMs的防御框架ALMGuard。核心思路是利用ALMs中天然存在的“安全捷径”(Safety Shortcuts),通过精心设计的扰动激活这些捷径,在不显著影响模型良性任务性能的前提下抵御越狱攻击。背景与问题:ALMs融合语音理解与生成能力,广泛应用于关键系统,但音频模态的引入带来了独特安全漏洞。现有从传统音频对抗防御或文本大模型越狱防御迁移的方法,因未考虑ALMs的行为多样性和音频模态特性,难以有效应对ALM专属越狱攻击。原创 2026-01-27 12:30:00 · 46 阅读 · 0 评论 -
2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity
AI代理有望显著改变网络安全格局。本文提出首个框架,用于捕捉不断演进的真实世界系统中的攻防网络能力。我们通过BountyBench实例化该框架,搭建了25个具有复杂真实代码库的系统。为覆盖漏洞生命周期,定义了三类任务:检测(发现新漏洞)、利用(利用特定漏洞)和修补(修补特定漏洞)。针对检测任务,我们构建了新的成功指标,该指标适用于各类漏洞类型并支持本地化评估。我们为每个系统手动搭建环境,包括安装依赖包、配置服务器和填充数据库。原创 2026-01-27 07:30:00 · 97 阅读 · 0 评论 -
2025_NIPS_Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data S
有害微调对大语言模型的微调即服务构成了严重安全风险。现有防御策略通过攻击模拟预先构建鲁棒性,但存在根本性局限:(1)由于难以预测未知攻击,攻击模拟无法超出有限威胁模型的范围;(2)对不同攻击场景的适应性有限,因为模拟无法捕捉攻击的变异性和复杂性。为解决这些挑战,我们提出贝叶斯数据调度器(BDS)——一种无需攻击模拟的自适应微调阶段防御策略。BDS将有害微调防御构建为贝叶斯推理问题,基于微调数据集和对齐数据集,学习每个数据点安全属性的后验分布。原创 2026-01-15 16:30:00 · 35 阅读 · 0 评论 -
2025_NIPS_Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transf
该研究聚焦混合专家(MoE)架构大语言模型的安全漏洞,提出首个针对MoE动态专家路由机制的后门攻击框架BadSwitch。通过结合任务耦合的触发词优化与敏感度引导的Top-S专家追踪,BadSwitch在预训练阶段识别对后门触发敏感的专家集群,在微调阶段将触发词嵌入目标专家路由路径,实现精准且隐蔽的模型操控。原创 2026-01-11 10:30:00 · 176 阅读 · 0 评论 -
2025_NIPS_JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
该研究聚焦视觉语言模型(VLMs)的安全边界漏洞,提出了一种名为JailBound的新型越狱攻击框架,核心目标是突破VLMs的内部安全机制,诱导其生成违反政策的有害输出。视觉语言模型(VLMs)展现出令人瞩目的性能,但强大视觉编码器的集成显著扩大了其攻击面,使其越来越容易受到越狱攻击。然而,现有越狱方法缺乏明确的攻击目标,往往依赖易陷入局部最优且缺乏精准方向引导的梯度策略,并且通常分离处理视觉和文本模态——这种做法忽视了关键的跨模态交互,从而限制了攻击效果。原创 2026-01-07 08:30:00 · 120 阅读 · 0 评论 -
2025-ICLR-SAFETY ALIGNMENT SHOULD BE MADE MORE THAN JUST A FEW TOKENS DEEP
提出核心问题:当前大语言模型(LLMs)的安全对齐存在“浅层安全对齐”问题,仅优化输出的前几个tokens(如“我不能”“抱歉”等拒绝前缀),后续tokens的生成分布未被有效约束,导致模型易受多种攻击。验证问题影响:浅层对齐是对抗性后缀攻击、预填充攻击、解码参数攻击、微调攻击等多种漏洞的共同根源,仅修改前几个tokens即可突破安全限制。提出解决方案:一是数据增强方法(生成“安全恢复示例”,训练模型在有害前缀后回归安全拒绝);原创 2025-12-30 08:30:00 · 359 阅读 · 0 评论 -
2025KDD-Honorable Mentions-Web Scale Graph Mining for Cyber Threat Intelligence
抵御当今日益复杂和大规模的网络攻击,需要准确、实时的威胁情报。传统方法难以实现规模化扩展、整合多样化遥测数据,且无法适应持续演变的安全环境。本文提出威胁情报跟踪自适应网络框架(TITAN),这是一种工业级图挖掘框架,能够以前所未有的速度和规模生成网络威胁情报。TITAN引入了一系列专门针对现代安全领域复杂性的创新,包括:(1)动态威胁情报图,映射数百万实体、事件和组织间的复杂关系;(2)实时更新机制,自动衰减和修剪过时情报;(3)整合安全领域知识,引导初始化声誉分数;原创 2025-12-27 13:30:00 · 44 阅读 · 0 评论 -
DSCD: Large Language Model Detoxification with Self-Constrained Decoding
大型语言模型(LLMs)的解毒仍是一项重大研究挑战。现有解码解毒方法均基于外部约束,需额外资源开销且会损失生成流畅性。本文创新性地提出了自约束解码解毒方法(DSCD),一种无需参数微调的LLM解毒新方案。DSCD在输出生成过程中强化安全层的内部下一个token分布,同时弱化幻觉层和毒性层的分布,有效降低毒性并提升输出安全性。该方法具备轻量化、高兼容性和即插即用特性,可与现有解毒方法无缝集成以进一步提升性能。原创 2025-12-18 09:30:00 · 151 阅读 · 0 评论 -
CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Power
LLMs的局限性与搜索功能的引入:LLMs知识受训练数据截止日期限制,无法获取新信息,因此集成网页搜索功能以动态获取互联网信息,但这也放大了安全风险。现有红队方法的不足:传统红队方法针对独立LLMs,无法覆盖带搜索功能LLMs的多阶段风险(如信息检索、引用等),且难以应对商业黑盒模型的不透明性。核心风险类型:带搜索功能的LLMs存在三类风险,分别是响应风险(生成有害内容)、引用风险(引用含有害内容的网页)、组合风险(两者兼具),现有方法主要关注响应风险,忽视引用风险。原创 2025-11-29 08:30:00 · 178 阅读 · 0 评论 -
L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models
研究背景:工业物联网(IIoT)中OT与IT融合,使关键信息物理系统暴露于复杂多阶段攻击;传统基于特征的入侵检测系统(SIDS)无法应对零日攻击,基于异常的入侵检测系统(AIDS)易被“低速攻击”规避,且均缺乏对攻击者意图的理解。框架设计:L2M-AID采用分层多智能体架构,分为战略层和战术层。战略层的“协调智能体”由LLM驱动,负责威胁关联分析、任务分解与态势感知;战术层包含网络监控、主机分析、威胁情报、缓解执行4类专项智能体,执行数据感知、异常检测与防御响应。核心机制。原创 2025-11-22 08:30:00 · 167 阅读 · 0 评论 -
Leveraging Large Language Models for Cybersecurity Risk Assessment — A Case from Forestry
研究背景与问题安全关键型软件系统(如林业自主机械)需严格网络安全风险评估,但企业普遍面临网络安全、AI、合规多领域专家短缺问题。现有法规(如《机械法规2023/1230》《网络弹性法案》)要求全面风险评估,而工程师缺乏专业支持,需工具辅助评估漏洞与威胁。研究方法采用设计科学研究方法,分两个周期开展:第一周期通过文献综述、3次专家访谈明确需求;第二周期基于Llama 2模型构建含RAG架构的工具,结合12位专家的访谈、交互测试与问卷调查迭代优化。原创 2025-11-12 09:24:56 · 98 阅读 · 0 评论 -
LATENTBREAK: JAILBREAKING LARGE LANGUAGE MODELS THROUGH LATENT SPACE FEEDBACK
越狱攻击是旨在绕过大型语言模型内置安全机制的对抗性攻击。自动越狱通常会优化对抗性后缀,或通过迫使模型生成受限或有害响应的初始部分来调整长提示模板。在本研究中,我们发现,现有利用此类机制解锁模型响应的越狱攻击,可通过对输入提示进行简单的基于困惑度的过滤来检测。为解决这一问题,我们提出了LatentBreak——一种白盒越狱攻击方法,该方法能生成低困惑度的自然对抗性提示,从而规避此类防御。原创 2025-11-12 09:30:00 · 211 阅读 · 0 评论 -
QUANTIFYING RISKS IN MULTI-TURN CONVERSATION WITH LARGE LANGUAGE MODELS
研究背景与问题LLM在多轮对话中可能生成灾难性响应(如制造爆炸物、生物武器的指导),但现有评估存在缺陷:依赖固定攻击提示序列、缺乏统计保证、无法覆盖庞大的多轮对话空间。单轮越狱攻击已被广泛研究,但现实中攻击者会通过多轮看似无害的对话逐步引导模型输出有害内容,这种多轮风险评估仍存在空白。核心方法:QRLLM框架核心目标:对LLM在多轮对话分布下生成灾难性响应的概率进行边界限定,提供统计保证。对话建模。原创 2025-10-31 08:30:00 · 266 阅读 · 0 评论 -
Adaptive Backtracking for Privacy Protection in Large Language Models
在人工智能时代,隐私保护已成为关键议题。然而,当前研究多聚焦于用户导向隐私,却忽视了检索增强生成(RAG)范式加剧的严重企业数据泄露风险。为填补这一空白,本文提出一个新目标:企业导向隐私关注。实现该目标需克服两大核心挑战:数据清洗等现有方法会大幅降低模型性能,且领域内缺乏用于评估的公开数据集。针对这些挑战,本文提出如下解决方案:(1)为避免性能损失,提出无需训练的机制ABack,该机制利用隐藏状态模型定位泄露意图的源头,并安全重写输出内容;原创 2025-09-14 09:30:00 · 253 阅读 · 0 评论 -
On the Robustness of Verbal Confidence of LLMs in Adversarial Attack
本文首次全面研究了大型语言模型(LLMs)的语言置信度(verbal confidence)在对抗性攻击下的鲁棒性。语言置信度指LLMs用自然语言表达对自身输出正确性的信心(如“答案是A,置信度80%”),其准确性和稳定性对高风险领域(如医疗、法律)的人机交互至关重要。攻击框架设计:提出两类攻击方法——基于扰动的攻击(如VCA-TF、VCA-TB,通过同义词替换、字符错误等修改输入)和基于越狱的攻击(如ConfidenceTriggers,通过优化触发短语降低置信度)。实验验证。原创 2025-08-15 09:30:00 · 268 阅读 · 0 评论 -
Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks
该论文介绍了,这是首个开源、开放权重的大型语言模型(LLM),其内置模型级防御机制,旨在抵御提示注入(Prompt Injection, PI)攻击,同时保持商业级模型的性能。研究背景:提示注入攻击是LLM集成应用的主要安全威胁,现有模型级防御虽有效但多为闭源,限制了AI安全社区的研究与协作。核心目标:开发开源模型,通过开放研究推动提示注入攻击的攻防协同发展,填补开源领域空白。技术方案。原创 2025-08-06 09:00:00 · 233 阅读 · 0 评论 -
Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
本文聚焦大型语言模型(LLMs)的版权和知识产权保护问题,针对现有水印技术难以抵抗持续训练和模型修改的缺陷,提出了一种基于模型内在特征的鲁棒指纹识别方法。研究背景:随着LLM训练成本增加和模型复用普及,版权保护面临挑战。传统水印技术易被持续训练、微调或修改破坏,无法可靠追溯模型来源。核心方法:利用注意力机制参数的内在统计特性构建指纹。原创 2025-07-10 12:15:03 · 106 阅读 · 0 评论 -
Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information
基于大型语言模型(LLM)的对话式人工智能(CAI),也称为生成式人工智能聊天机器人(如ChatGPT),正越来越多地应用于各个领域,但它们存在隐私风险,因为用户在与CAI对话时可能会泄露个人信息。最近的研究表明,基于LLM的CAI可能被用于恶意目的。然而,一种新型且特别令人担忧的恶意LLM应用仍未被探索:一种专门设计用于从用户那里提取个人信息的基于LLM的CAI。在本文中,我们报告了我们创建的基于大型语言模型的恶意对话式人工智能,这些AI基于使用不同策略来鼓励用户披露个人信息的系统提示。原创 2025-06-23 09:30:00 · 324 阅读 · 0 评论 -
SAFEMERGE: PRESERVING SAFETY ALIGNMENT IN FINE-TUNED LARGE LANGUAGE MODELS VIA SELECTIVE LAYER-WISE
本文提出了一种名为SafeMERGE的后微调框架,旨在解决微调大型语言模型(LLMs)时无意中导致的安全对齐退化问题。通过选择性地合并微调模型与安全对齐模型的层(仅在偏离安全行为时合并),SafeMERGE在保持任务性能的同时显著减少有害输出。实验表明,该方法在Llama-2-7B-Chat和Qwen-2-7B-Instruct模型上对GSM8K和PubMedQA任务的效果优于现有基线,实现了安全性与实用性的最佳平衡。微调大型语言模型(LLMs)于下游任务时,即使使用良性数据集,也可能无意中削弱其安全对齐。原创 2025-04-08 08:30:00 · 227 阅读 · 0 评论 -
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
首次提出Token级后门攻击Token替换:将输出中的特定源token(如"red")替换为目标token(如"green")Token插入:在输出末尾插入恶意token序列(如钓鱼链接)优化框架提出结合有效性损失(最大化攻击成功率)和实用性损失(保持模型性能)的优化目标通过影子数据集训练实现触发模式与攻击行为的绑定防御验证测试了微调(Fine-tuning)和输入净化(Zero-shot Image Purification)等防御方法的局限性发现Token替换攻击对微调具有较强抗性。原创 2025-04-03 09:30:00 · 301 阅读 · 0 评论 -
Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models
成员推理攻击(MIAs)旨在预测某个数据样本是否属于模型的训练集。尽管先前的研究已对大语言模型(LLMs)中的成员推理攻击进行了广泛探索,但这些研究通常需要访问完整的输出logits(即基于logits的攻击),而在实际应用中,完整的输出logits通常是不可获取的。在本文中,我们研究了预训练的大语言模型在标签仅设置下对成员推理攻击的脆弱性,在这种设置下,攻击者只能访问生成的token(文本)。原创 2025-03-24 08:30:00 · 239 阅读 · 0 评论 -
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks
大语言模型(LLMs)已成为现代自然语言处理的支柱,但它存在泄露敏感训练数据的隐私问题。成员推理攻击(MIAs)旨在推断某个样本是否包含在模型的训练数据集中,可能引发更广泛的隐私威胁。现有的针对传统分类模型的防御方法没有考虑文本数据的序列特性,因此,它们要么需要大量的计算资源,要么无法有效降低大语言模型中的隐私风险。在这项研究中,我们提出了一种轻量级且有效的经验隐私防御方法,通过利用大语言模型中token的特定特征来保护语言模型的训练数据。原创 2025-03-07 09:30:00 · 210 阅读 · 0 评论 -
GuardReasoner: Towards Reasoning-based LLM Safeguards
随着LLM对安全关键应用的影响越来越大,使用护栏确保其安全仍然是一个关键挑战。本文通过引导保护模型学习推理,提出了一种新的LLM保护机制GuardReasoner。具体来说,我们首先创建GuardReasonerTrain数据集,该数据集由127K个样本和460K个详细的推理步骤组成。然后,我们引入推理SFT来解锁保护模型的推理能力。此外,我们还提出了硬样本DPO,以进一步加强他们的推理能力。通过这种方式,GuardReasoner实现了更好的性能、可解释性和通用性。原创 2025-02-25 10:00:00 · 167 阅读 · 0 评论
分享