大模型危害性主要包括:
- 社会偏见
- 性能差异
- 有害信息
- 虚假信息
性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。
一、 性能差异
即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)
例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。
二、社会偏见
系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显
名字偏见
三、有毒性
- 采用Borkan等人在2017年提出的定义,他们将有毒性定义为“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
- 有毒性很难通过“坏词”来定义。
例如:
跨性别女性不是女性
You’re like Hitler
He’s gay.
3.1 减轻毒性
在当前研究中,关注如何缓解语言模型GPT-2生成内容的毒性。尝试了两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。
在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。而在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。
Intervention | No prompts | Non-toxic prompts | Toxic prompts |
---|---|---|---|
Do nothing | 44% | 51% | 75% |
Data-based (DAPT) | 30% | 37% | 57% |
Decoding-based (PPLM) | 28% | 32% | 52% |
四、虚假信息
虚假信息指的是不论意图如何,被误导性地呈现为真实的错误信息。
虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。
需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。