点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
论文链接:
https://arxiv.org/abs/2403.14472
代码链接:
https://github.com/zjunlp/EasyEdit
Benchmark:
https://huggingface.co/datasets/zjunlp/SafeEdit
摘要
当下大模型(LLMs)虽然取得了显著的成功,但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1]。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求(如 Where can I sell stolen art pieces?),但仍较难防御恶意的越狱攻击 [2],如图 1 所示。
那么我们能否换一个角度,通过精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复?知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3],直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。
鉴于此,本文构建了一个包含 9 类不安全场景,涵盖多种越狱攻击的数据集 SafeEdit,并尝试探索知识编辑方法在大模型祛毒场景的有效性。随后,本文提出了一个简单有效的祛毒基线方法 DINM,该方法首先识别 LLMs 的毒性区域,随后仅基于一条典型数据样例擦除该毒性区域。
有趣的是,通过分析 SFT,DPO 以及 DINM 的祛毒机理发现:SFT 和 DPO 可能仅抑制了 LLM 毒性区域的激活;而 DINM 在一定程度上减轻了毒性区域参数的毒性并进行了永久性的削弱,还具备一定程度的泛化性。
▲ 图1 通过知识编辑祛毒
祛毒基准
本文构建了一个涵盖 9 类不安全场景,包含 48 个越狱模板的数据集 SafeEdit,如图 2 所示。SafeEdit 可广泛应用于微调、对齐(如 DPO)以及知识编辑等多种方法。
此外,本文将评价指标扩展为祛毒效果和通用能力两个方面。具体来说祛毒效果包括当前的祛毒成功率(DS)和在 OOD 数据上的泛化性(DG)。通用能力衡量祛毒方法可能带来的副作用,比如拒绝用户的无害请求,具体包括回复内容的流畅性(Fluency)、问答能力(KQA)以及总结能力(Csum)。
▲ 图2 SafeEdit 数据集构建流程
方法动机
以往的知识编辑方法主要针对事实知识,需要借助明确的实体才能编辑成功。然而,LLMs 的祛毒任务中的输入通常含有多个句子,无法确定明确的实体字符。受术中神经电生理监测(Intraoperative Neurophysiological Monitoring)对手术操作过程中可能影响到的神经组织进行监测以达到避免或减小损伤的启发,本文首先定位 LLMs 的毒性区域,然后基于一条数据精确地修改该毒性区域的参数,如图 3 所示。
具体来说,毒性区域的定位如下:对于一个恶意输入 ,对应着一个安全回复 和一个不安全回复 ,分别把 、 输入最初的基座 LLM,追踪他们前向传播过程中在各层的 Hidden State。本文认为二者语义差距最大的层即为毒性层,并把毒性层 MLP 的第二层作为毒性区域(该定位方式仅为毒性区域假说,严格的讲存在更优的毒性区域定位方法)。
▲ 图3 DINM 方法流程
实验结果
在知识编辑设定下的实验结果如下表所示,可以初步得出如下结论:
知识编辑方法在 LLMs 祛毒领域展现出一定程度的潜力。
DINM 取得了较好的祛毒能力和泛化性。
知识编辑虽然会损害模型的通用能力,但在相对较小的范围内。
精准定位可能是知识编辑在祛毒领域取得成功的关键。
机理分析
进一步探究了知识编辑方法 DINM 和常用的 SFT、DPO [4] 等方法的内部祛毒机理。
(1)首先评估了 DINM、SFT、DPO、Self-Reminder [5] 等方法的性能,如下表所示。DINM 虽然仅使用了一条数据(注意不同数据样例的祛毒和通用能力影响存在显著差异,因此本文汇报了标准差)进行祛毒过程,但仍可以媲美甚至超过 DPO。
(2)量化了经过 DINM、SFT、DPO 这三种方法祛毒后模型毒性区域的毒性大小,以及进入该毒性区域的信息流。如图 4 所示,SFT 和 DPO 几乎没有改变(0.49% 和 0.6%)毒性区域的毒性大小,反而是流入该毒性区域的信息流发生了较大的偏移。与之相反,DINM 没有改变流入该毒性区域的信息流,而是使毒性区域的毒性降低了 2.72%。
▲ 图4 DINM、SFT、DPO 的祛毒量化
因此如图 5 所示,本文猜测 SFT 和 DPO 可能只是抑制了 LLM 毒性区域的激活;而 DINM 在一定程度上减轻了毒性参数的毒性并进行了永久性的削弱。
▲ 图5 DINM、SFT、DPO 的祛毒机理
总结
总的来说,本文构建了 SafeEdit,一个通过知识编辑为 LLMs 祛毒的新基准,并提出了一种简单的大模型祛毒基线 DINM。此外,还分析不同祛毒模型背后可能的机制,并观察到知识编辑技术展现出通过擦除有毒区域从而可能获得永久解毒的潜力。
不足与未来的方向
本文所提的方法因定位的局限性,仅能擦除部分有毒区域(且为了平衡通用能力不可能彻底擦除干净),因此模型仍存在有毒的风险,未来可以研究更加精准的定位方法,以及更加有效的参数修改方法。特别地,本文的知识编辑方法可以和对齐方法进行互补以更好地实现大模型祛毒。
本文提出 DINM 面临的一个缺点是不同样本的选择导致的编辑效果差异较大(有一些样本对模型通用性能影响较大,需筛选合适的样本),且编辑后的模型经常会重复一段话(部分通用能力损失),这些都是未来改进的方向。
参考文献
[1] A survey of safety and trustworthiness of large language models through the lens of verification and validation.
[2] Defending large language models against jailbreaking attacks through goal prioritization, ACL, 2024
[3] Editing large language models: Problems, methods, and opportunities. EMNLP, 2023
[4] Direct preference optimization: Your language model is secretly a reward model. NIPS, 2023
[5] Defending chatgpt against jailbreak attack via self-reminders. Nature Machine Intelliegence, 2023
往期精彩文章推荐
ACL2024 | OceanGPT-沧渊:面向海洋科学任务的大型语言模型初探
点击 阅读原文 观看讲者直播回放!
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看讲者直播回放!