知识编辑——祛除模型毒性的新方法

33695f1c16d644ec2101ebee4ab7f596.png作者:bhn(已授权)

知识编辑——大语言模型原理探索

论文:Detoxifying Large Language Models via Knowledge Editing
链接:https://arxiv.org/abs/2403.14472

背景

尽管大语言模型取得了显著的进步,但是它也存在一些问题,由于数据来自互联网,并且数据量很大,不能进行完全的筛选,以至于模型会输出大量有毒内容。cc1e8c7e8c6b59dcc2065457c564681f.png尽管有大量工作如SFT,RLHF,DPO等致力于将模型和人类偏好对齐,以减少有毒的输出,但这些方法仅仅是抑制有毒的参数激活,不能真正的消除模型的毒性。该论文尝试使用知识编辑的方法祛除大模型的毒性。

本文的工作

这篇论文主要进行了两方面的工作:SafeEdit benchmark构建和DINM(Detoxifying with Intraoperative Neural Monitoring)baseline的提出。

  1. SafeEdit:由于现存的毒性数据集种类少,并且忽视了攻击prompt起到的作用。从而提出该benchmark。08630a19a47b11a9fa9805bd7e6fcb5d.png

    1. DS(Defense Success): 衡量模型防御投毒查询的能力。

    2. DG(Defense Generalization): 衡量模型防御的泛化能力。将 中的q,或者a分别用其他的有害问题或者攻击prompt取代 。如下面的公式用来评价问题和攻击prompt都用数据集中未出现的代替后,模型的能力。

    3. Fluency: 模型的流畅度。

    4. KQA(Knowledge Question Answering): 模型通用知识问答的能力。

    5. CSum(Content Summarization): 模型内容总结的能力。

    6. 数据集构造:通过GPT4生成60个X9类个有害问题,并且收集到48个攻击prompt。然后将生成的有害问题和攻击prompt组装到一起,分别输入到模型GPT-4和 text-davinci-003去生成安全和不安全的响应。构成 数据集。并且为了检测通用知识构造了 数据集。

    7. 评估指标

      符号:分别表示有害问题,攻击prompt。

      表示知识编辑后的模型。

      表示分类器认为模型生成的回复是安全的还是不安全的。为1,在模型生成安全回复的时候,表示防御成功,为0则相反。

  2. DINM:该知识编辑方法首先会对毒性区域定位,然后再对定位到的区域进行祛毒编辑。7f82f3c99d6ba3aee8f071aa426b7111.png

    1. 毒性定位:基于先前工作的探索,如:Locating and editing factual associations in GPT,了解到毒性事实存储在mlp部分的第二层。该方法通过寻找”安全回复“和”不安全回复“分布最不同的transformer层,然后将第二层mlp中携带的参数作为毒性区域。

    2. 祛毒编辑:将除了毒性区域以外的参数冻结,然后通过最大化对抗投毒输入下生成安全回复的可能性,并且不会影响正常的响应,更新毒性区域的参数。

      其中X是对抗输入为 。S是系统prompt前缀:“If the user’s request is reasonable, give the correct answer. Please give the right response:”

      其中 为常识性问题。

实验分析

d70200d2f7f3f67e2fde5b2245436f79.png对比与其他的知识编辑方法,DINM在毒性防御的能力接近甚至高于其他方法,并且泛化防御能力大大领先于其他方法,说明该方法定位到的毒性区域,不仅仅是针对的数据集的内容,而是模型中有毒的部分。但是随之带来一些通用能力的损失。cd7552819636d9bcb64a9cfc300dc87b.png对比于SFT,DPO等方法,DINM方法在祛毒能力上大大领先,恰恰验证了SFT,DPO等方法只能让模型绕过毒性内容,而DIMM是在擦除有毒内容。43b0a059364ab28ba240d93aba411438.png

局限性

该论文中参与实验的模型相对较少,并且都是小参数模型,不能确定对于大参数模型是否有仍有效果。

没有做类似于ROME的实验,知识编辑后是否有影响的未编辑的事实。

对于闭源大模型,该方法很难起到作用。

个人评价:之前有一种说法,微调不会改变模型的知识,而是会调整模型的分布到人类想要。该知识编辑方法是否会针对”擦除记忆”吗?


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

642e022918d67f423b3b5eb446d4f359.png

id:DLNLPer,记得备注呦

本项目是一个基于SSM(Spring+SpringMVC+MyBatis)框架和Vue.js前端技术的大学生第二课堂系统,旨在为大学生提供一个便捷、高效的学习和实践平台。项目包含了完整的数据库设计、后端Java代码实现以及前端Vue.js页面展示,适合计算机相关专业的毕设学生和需要进行项目实战练习的Java学习者。 在功能方面,系统主要实现了以下几个模块:用户管理、课程管理、活动管理、成绩管理和通知公告。用户管理模块支持学生和教师的注册、登录及权限管理;课程管理模块允许教师上传课程资料、设置课程时间,并由学生进行选课;活动管理模块提供了活动发布、报名和签到功能,鼓励学生参与课外实践活动;成绩管理模块则用于记录和查询学生的课程成绩和活动参与情况;通知公告模块则实时发布学校或班级的最通知和公告。 技术实现上,后端采用SSM框架进行开发,Spring负责业务逻辑层,SpringMVC处理Web请求,MyBatis进行数据库操作,确保了系统的稳定性和扩展性。前端则使用Vue.js框架,结合Axios进行数据请求,实现了前后端分离,提升了用户体验和开发效率。 该项目不仅提供了完整的源代码和相关文档,还包括了详细的数据库设计文档和项目部署指南,为学习和实践提供了便利。对于基础较好的学习者,可以根据自己的需求在此基础上进行功能扩展和优化,进一步提升自己的技术水平和项目实战能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值