3.1 引言
新兴技术的危害:大模型的能力所展现的潜力,会为目前开创性的大模型所广泛采用,但是我们在使用他们的同时,我们也要注意它们所可能造成的危害。我们在回顾历史时,我们需要对其他领域中的危害,安全和伦理问题进行了解,首先考虑在一些具有成熟的危害和安全传统学科中使用的高层次思想和方法。
(1)贝尔蒙特报告和IRB:人们通过概述了三个原则,和建立IRB委员会来确保安全。
(2)生物伦理学和CRISPR:在基因编辑技术创立之初,生物医学界就已经制定了社区标准,禁 止这些技术用于人类基因的编辑。如果社区成员被发现违反规则,他们将会被开除出社区。
(3)FDA和食品安全:FDA会对食品和药物进行多个阶段的测试,来验证他们的安全性。这些测 试都是建立在科学学科的已建立理论上。
我们当前的内容主要是放在两个方面:
(1)性能差异相关的:
大型的语言模型可以适应执行特定的任务。在某些特定的任务在某些群体中会表现得更好, 但是在其他的群体中表现会比较差。比如:自动语音识别系统(ASR)在黑人说话者的识别 性能要差于白人说话者;反馈循环(大模型根据数据的积累将持续训练的一种循环)可以随 着时间的推移放大差异:如果系统对某些用户不进行工作,他们就不会使用这些系统,从而 导致系统出现更大的差异。
(2)社会偏见和刻板印象相关的危害:
社会偏见是将某些概念和某些群体相对其他群体进行系统关联,比如:我们在网上见到的地 域黑,这个可以是比较明显的社会偏见,将诸多不好的词语直接和某些地区相挂钩。刻板印 象是一种特定且普遍存在的社会偏见形式,这其中的关联是广泛持有的,过度简化的并且还 是一般固定的。这些关联对于语言技术是特别重要的,因为刻板印象是通过语言构造,获取 和传播的。如果大模型无法理解这些关联性的数据,那么他们在这些数据上面的表现就会比 较差。
3.2 社会群体
在美国有许多属性会发生争议,比如:种族和性别。这些认为构建的类别与自然界的划分有所不同,比如性别并非简单的二元划分,而是更具有流动性的概念。在我的了解中,对性别的划分,不仅仅是从染色体上出发的,他们判断的标准是一个人的自我认知,一个人认为自己是什么类型的,然后再在原有染色体的基础上进行划分。这些相关的群体因文化和背景而区分。除此之外,我们也要关注历史上边缘化的群体。在一般的情况下,ai系统对此带来的伤害是不均等的:那些历史上被歧视,或者遭受其他不平等的待遇的群体应该得到特别关注。交叉性理论提出那些处于多个边缘化群体交集的个体(黑人妇女)会收到额外歧视。
3.3 量化性能差异/社会偏见在LLMs中的危害
名字偏见
这里我们首先将大模型在SQuAD数据进行训练,然后设计一个新的任务进行测试。
- 动机:测试模型在涉及人名的文本中的理解和行为方式。
- 原始任务:SQuAD - Stanford Question Answering Datasets(Rajpurkar等,2016年)
- 修改后的任务:使用SQuAD数据构建额外的测试例子,将之前的测试答案中的两个名字进行交换。最终测试模型的回答正确性。
- 指标:翻转表示交换名称会改变模型输出的名称对的百分比。
结果:
- 模型通常会预测与他们所知名人物相关的名称,符合他们所擅长的领域。
- 对于不太知名的人,效果会很快减弱。
- 当交换名称时,模型通常不会改变它们的预测结果。
Model | Parameters | Original acc. | Modified acc. | Flips |
---|---|---|---|---|
RoBERTa-base | 123M | 91.2 | 49.6 | 15.7 |
RoBERTa-large | 354M | 94.4 | 82.2 | 9.8 |
RoBERTA-large w/RACE | 354M | 94.4 | 87.9 | 7.7 |
刻板印象
- 动机:评估模型在涉及刻板印象的文本中的行为方式
- 任务:比较模型对具有刻板印象和反刻板印象关联的句子的概率
- 指标:刻板印象得分是模型偏好刻板印象示例的比例。作者表示,得分为0.5是理想的。
结果:
- 所有模型都显示出对刻板印象数据的系统偏好。
- 较大的模型往往具有较高的刻板印象得分。
Model | Parameters | Stereotype Score |
---|---|---|
GPT-2 Small | 117M | 56.4 |
GPT-2 Medium | 345M | 58.2 |
GPT-2 Large | 774M | 60.0 |
我认为从上面的实验结果可以看出,名字偏见和刻板印象对大模型的评分有较大的影响。他们从文本中学习到的数据,顺带着连其中的关联性一同学习了。这就从侧面说明了,大模型可能会对某些边缘的群体,给予更少的关注。可我认为大模型作为辅助人们的工具,应该是公正且平等的,如果说因为数据中的关联性,而导致系统在处理时也会因为这样带来偏见或者忽略,那他无法做到说真正的有利于全人类。我个人抱有着还是一种大同的思想,作为一个工具不应该带有着这些逻辑。
3.4
3.4 测量与决策
公平性指标众多,能够将性能差异转化为单一测量结果。然而,许多这样的公平性指标无法同时被最小化(Kleinberg等人,2016),并且无法满足利益相关者对算法的期望(Saha等人,2020)。 衡量偏见的许多设计决策可能会显著改变结果,例如词汇表、解码参数等因素(Antoniak和Mimno,2021)。现有的针对大型语言模型(LLMs)的基准测试已受到了到了严重的批评(Blodgett等人,2021)。许多上游偏见的测量并不能可靠地预测下游的性能差异和实质性的伤害(Goldfarb-Tarrant等人,2021)。
我认为在大模型的训练中,这些偏见与刻板印象算是一个隐藏的变量,如果无法将他们进行纳入大模型的训练中,那么所训练出来的大模型绝对不是最好的。
3.5 其他考虑因素
LLMs有可能通过多种方式造成伤害,包括性能差异和社会偏见。理解这些伤害对社会造成的影响,需要考虑涉及的社会群体及其状况,例如历史上的边缘化、权力的缺乏。虽然在具体的下游应用环境中,伤害通常更容易理解,但LLMs却是上游的基础模型。
3.6 决策问题
现有的方法往往无法有效地减少或解决这些伤害;在实践中,许多技术缓解措施效果不佳。涵盖更广泛生态系统的社会技术方法,可能是显著缓解这些伤害的必要措施,这个生态系统是LLMs的情境环境。