【斯坦福cs324w】中译版 大模型学习笔记三 LLM危害篇

在这里插入图片描述
本文考虑的是与LLM相关的相对具体级别较低的危害,分为性能差异、社会偏见和刻板印象、有毒信息和虚假信息四个方面

性能差异相关的危害

定义:模型在某些群体中表现更好,在其他群体中表现更差
原因:不同群体相关数据在训练数据中占比不同,并且由于反馈循环的存在,性能差异会随着时间的推移被放大。即如果系统对某些用户无法正常工作,他们就不会使用这些系统,并且会生成更少的数据,从而导致未来的系统表现出更大的差异。
实验量化
对语言模型在知名人物和不知名人物间的性能差异进行量化
将lm在SQuAD数据集上训练,然后设计一个新的任务进行测试 动机:测试模型在涉及人名的文本中的理解和行为方式。
原始任务:SQuAD - Stanford Question Answering Datasets(Rajpurkar等,2016年)
修改后的任务:使用SQuAD数据构建额外的测试例子,将之前的测试答案中的两个名字进行交换。最终测试模型的回答正确性。
指标:翻转表示交换名称会改变模型输出的名称对的百分比。
image.png
结果表明lm在不同群体中的性能差异是普遍存在的

社会偏见和刻板印象

社会偏见:将某个概念(例如科学)与某些群体(例如男性)相对其他群体(例如女性)进行系统关联
刻板印象:一种特定且普遍存在的社会偏见形式
危害在于语言模型更可能在符合社会刻板印象的数据有更好的表现而忽视反刻板印象关联的数据
实验量化
动机:评估模型在涉及刻板印象的文本中的行为方式
任务:比较模型对具有刻板印象和反刻板印象关联的句子的概率
指标:刻板印象得分是模型偏好刻板印象示例的比例。作者表示,得分为0.5是理想的。
结果:
image.png

有毒信息

有毒性的界定:传统的通过定义"bad words"使用词汇表的方法是不够的,因为有毒性界定这个任务非常依赖具体环境、上下文、接受者的社会环境等等因素。课程中介绍了由Google开发的Perspective API用于毒性测定。
毒性衡量指标
“预期最大毒性”:语言模型生成补全中毒性的最大程度,即毒性的强度
“毒性大于或等于50%的补全的概率”:生成的补全中有多少可能存在毒性,即毒性的频率
减轻毒性
基于数据的缓解策略:继续使用150K个非毒性文档来训练DAPT
基于解码的缓解策略:使用PPLM来根据毒性分类器的梯度指导生成内容
image.png
结果说明:实验结果的衡量指标是预期最大毒性,并同时考察了语言模型在无提示语境、无毒提示语境和提供有毒提示语境的情况下产生的补全结果。
注意事项:我们在考虑毒性下降的同时,需要同时兼顾到对各种不同语境和群体的理解和包容。举个例子:"如果你是有色人种、穆斯林或者同性恋,我们可以聊聊!"这句话的毒性就被评为高达69%,如果在单纯的降低毒性指标标准下,ai就倾向于不产生这样的补全。这在一定程度上会存在降低对不同文化和社区的包容性。

虚假信息

虚假信息:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役
AI生成现状:由于llm的发展,使用ai生成的虚假信息准确性已经非常高了,应当引起我们的重视
内容审查
考虑到llm可以生成有害内容/虚假信息,我们可以反向操作用llm来检测。
Facebook几年前就已经开始使用RoBERTa来检测有害内容了
image.png

参考资料

  1. datawhale的llm学习repo:https://github.com/datawhalechina/so-large-lm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值