Task03-大模型的有害性

一、性能差异

定义: 性能差异主要指大模型在特定群体或任务场景下表现优秀,在其他场景下表现较差的情况。

原因: 在大模型的训练与使用过程中,存在着反馈循环现象,这种现象会随着时间的推移放大大模型所带来的差异。例如当大模型因对部分场景或群体无法正常工作,导致在该场景或群体中获得更少的数据,最终更倾向于另一方,随时间推移表现出更大的差异。

二、社会偏见

来源: 在实际场景中,如种族、性别以及宗教等人为构建的类别与自然界的划分是相异的,这种差异性的存在会使得AI无法及时反映出社会科学中队对些属性的现代处理方式,从而出现社会性偏见现象。并且这种现象一方面与历史性歧视相关,另一方面也会受到交叉性理论的影响,对多个边缘化群体的交集个体产生额外歧视。

测试实验

首先是姓名偏见测试,引入SQuAD数据集构建测试案例,交换原始测试案例中的姓名,以此测试模型对涉及人名文本的理解和行为方式

ModelParametersOriginal acc.Modified acc.Flips
RoBERTa-base123M91.249.615.7
RoBERTa-large354M94.482.29.8
RoBERTA-large w/RACE354M94.487.97.7

结果显示,对于知名人物相关的名称,模型可以很好的预测出正确结果,而对于不知名的名称,大模型所表现出的性能出现了减弱。这是一种很明显的偏见现象。
在刻板印象测试中,通过比较模型对具有刻板印象和反刻板印象关联的句子的概率,以评估模型在涉及刻板印象的文本中的行为方式

ModelParametersStereotype Score
GPT-2 Small117M56.4
GPT-2 Medium345M58.2
GPT-2 Large774M60.0

结果显示,所有模型均存在刻板印象,且随着模型参数量的增大,模型愈发偏向刻板印象示例。

结论与思考: 由于反馈循环问题的存在,模型的每一次收集数据都会放大其内部存在的差异性问题,很明显RLHF并不能解决这一问题,因此如何相对公平的收集到数据,设计大量偏见数据的权重占比,使得最终模型与社会道德相吻合,需要一个新的公平性指标。不过如何解决受歧视群体的数据匮乏,也是一个值得思考的问题。

三、有毒性

定义: 大模型的有毒性主要指大模型会产生的攻击性、有害的内容。这些内容的产生与语言模型之间存在割裂性。因为语言模型不具有感情,只是基于概率去处理和产生文本内容,但是这些文本内容却可能会伤害到一些人。

解决方法:
1. 基于数据的策略:使用大量非毒性内容来训练模型
2. 基于解码的策略:使用PPLM来根据毒性分类器的梯度指导生成内容。

此外在缓解毒性的同时,也需要兼顾语言模型对于各种不同语境和群体的理解和包容。因为过度关注毒性可能会忽视对不同文化和社区的包容性。比如,"如果你是有色人种、穆斯林或者同性恋,我们可以聊聊!"这句话的毒性就被评为高达69%,但这明显是误判。(有点类似过拟合哈哈哈)

四、虚假信息

误导性信息(Misinformation)指的是不论意图如何,被误导性地呈现为真实的错误信息。虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。

目前大模型生成的信息,在真实性上很难由人类进行区分,通过对大模型的微调,却可以很好的通过大模型分辨出虚假内容。
但遗憾的是,针对目前例如ChatGPT、LLaMA等大模型的生成结果,我并没有发现有什么方法可以有效的检查其生成内容中存在的虚假性信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aaaaaki

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值