简单学点大模型-大模型的有害性

今天学习的是系统在面对特定任务时可能会出现的伤害,上游的语言大模型在产生伤害的方面起了很大的作用。

大模型产生的伤害主要源自其“行为”,而非构造方法,因此这些伤害被称为“行为伤害”。产生伤害并不是语言模型的本意,这主要基于其训练的数据,但这些伤害影响的是人类。

以下为大模型可能会产生的四种“行为伤害”:

3.1 性能差异

系统的性能差异表现为对于某些人群的准确性高于其他人群。例如,自动语音识别(ASR)系统在黑人说话者的识别性能要差于白人说话者。

反馈循环随着时间的推移会放大性能差异:如果系统面对某些群体的表现较差,群体中的用户会减少,生成的数据会更少,性能的差异更明显。

3.2 社会偏见和刻板印象

系统产生的社会偏见和刻板影响表现为生成文本的时候与特定人群之间存在较强的关联性。人类为了快速了解一个人或事,会为其贴上一个标签,与之构成关联性,贴上标签则需要用语言构建、传播,语言大模型在训练中就会通过这些大量重复的语言标签产生社会偏见和刻板印象的文本。

社会偏见和刻板印象可能会导致性能差异的出现。

3.3 有害信息

有害性的定义在很大程度上取决于上下文的内容,一般定义为粗鲁、不尊重、不合理,让人不适的行为。

大模型产生的有害信息主要表现在两方面:

  • 聊天机器人可能会回复有害的消息
  • 系统会为用户提供有害的建议,促使用户发布含有有害信息的内容

在检测生成信息的有害程度时,不能单靠检测特定的词语,而需要考虑上下文语境。

提示实验

评估有害信息的指标有两种:”预期最大有害性”,反应有害程度;“毒性大于或等于50%的补全的概率,反应有害信息出现的频率。

通过提示实验对两种指标的研究可以得知,语言模型即使在没有有害性信息提示的情况下也容易生成有害内容。

我们如何降低模型生成信息的有害性呢?主要方法也为两种:基于数据的策略中,使用大量不含有害信息的文本训练模型;基于解码的策略中,根据有害信息的分类来指导信息生成。

但是我们不能过度关注信息的有害性,过度关注有害性可能会导致对不同地区、不同文化人群的忽视,从而导致性能差异的出现。

内容审查

大模型可以生成有害信息,也可以审查有害信息。

Few-Shot Learner是Meta最新强大的内容审查模型,在大量原始文本和历史数据上进行训练,从目标文本中分辨出蕴含的真实内涵。

I love your ethnic group. JK. You should all be 6 feet under groud. This is hate speech. ⇒entailment. (我爱你的族群。开玩笑。你们都应该埋在六英尺地下。这是仇恨言论。 ⇒ 蕴涵)

3.4 虚假信息

虚假信息是人为有意呈现的欺骗性、误导性的错误信息。虚假信息不一定会被认证,主要目的是在听众的心里埋下怀疑的种子,而先入为主会影响人的判断。

但是一些非真实的信息不被视为虚假信息,比如虚构小说。

虚假信息需要满足以下条件:新颖,可以引起读者兴趣;易懂;有说服力。

当前虚假信息制造的过程昂贵又慢。现阶段的AI生成的文章已经具有一定的可信度,尤其针对用户政治信仰生成的文章可性度更高。未来,恶意行为者可能会使用AI创造虚假信息。AI生成多篇文章,有心人只需选择最好的文章并进行适当修改,这样虚假信息制造的金钱和时间成本都会降低。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值