datawhale 大模型学习 第九\十章-大模型有害性

本文探讨了大模型在AI中的潜在危害,包括性能对不同群体的差异、社会偏见(如性别和种族)、生成的有毒内容以及虚假信息问题。作者分析了这些问题的来源,并介绍了针对GPT-2模型减少毒性的两种策略:基于数据的DAPT和基于解码的PPLM。
摘要由CSDN通过智能技术生成

大模型危害性主要包括:

  • 社会偏见
  • 性能差异
  • 有害信息
  • 虚假信息

性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。

一、 性能差异

即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)
例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。

二、社会偏见

系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显

名字偏见

三、有毒性

  • 采用Borkan等人在2017年提出的定义,他们将有毒性定义为“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
  • 有毒性很难通过“坏词”来定义。

例如:

跨性别女性不是女性

You’re like Hitler

He’s gay.

3.1 减轻毒性

在当前研究中,关注如何缓解语言模型GPT-2生成内容的毒性。尝试了两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。

在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。而在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。

InterventionNo promptsNon-toxic promptsToxic prompts
Do nothing44%51%75%
Data-based (DAPT)30%37%57%
Decoding-based (PPLM)28%32%52%

四、虚假信息

虚假信息指的是不论意图如何,被误导性地呈现为真实的错误信息。

虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。

需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值