大模型基础理论学习笔记——大模型有害性

maximejia

已于 2024-01-29 22:29:46 修改

阅读量956

点赞数 17

分类专栏：人工智能文章标签：学习笔记语言模型自然语言处理 gpt-3

于 2024-01-28 22:49:15 首次发布

本文链接：https://blog.csdn.net/maximejia/article/details/135902130

版权

人工智能专栏收录该内容

13 篇文章 2 订阅

订阅专栏

本文目录

9.大模型的有害性
参考资料

9.大模型的有害性

新兴技术的危害：我们知道“能力越大责任越大“，对于当前开创性的大模型来说，我们需要了解这些模型的能力和危害之间的密切关系。大模型的能力所展示的潜力将导致这些模型被广泛的采用，但是与此同时造成它们的危害。

9.1 大模型的行为伤害

由于AI的发展是近几年发展的产物，因此，对于其危害的研究与预防依旧是一个很新的事情。大语言模型有可能通过多种方式造成伤害，如性能差异和社会偏见。理解这些伤害对社会造成的影响，需要考虑涉及的社会群体及其状况，例如历史上的边缘化、权力的缺乏。虽然在具体的下游应用环境中，伤害通常更容易理解，但大语言模型却是上游的基础模型。因此，需要考虑如何从上游的大语言模型建立阶段就要规避面向下游任务可能产生的伤害。

在本节中，我们将专注于与LLM的危害相关的相对具体但是级别较低的一些关注点。当前内容的关注点主要集中于以下两个点：

性能差异相关的危害：正如我们在关于大规模语言模型的能力那一节的内容可以预见到，大型语言模型可以适应执行特定任务。对于特定任务（例如问答），性能差异意味着模型在某些群体中表现更好，在其他群体中表现更差。例如，自动语音识别（ASR）系统在黑人说话者的识别性能要差于白人说话者。反馈循环（大模型随着数据的积累将持续训练的一种循环）可以随着时间的推移放大差异：如果系统对某些用户无法正常工作，他们就不会使用这些系统，并且会生成更少的数据，从而导致未来的系统表现出更大的差异。
社会偏见和刻板印象相关的危害：社会偏见是将某个概念（例如科学）与某些群体（例如男性）相对其他群体（例如女性）进行系统关联。刻板印象是一种特定且普遍存在的社会偏见形式，其中的关联是被广泛持有、过度简化并且一般固定的。对于人类来说，这些关联来自于获得快速的认知启发。它们对于语言技术尤为重要，因为刻板印象是通过语言构建、获取和传播的。社会偏见可能导致性能差异，如果大型语言模型无法理解表明反刻板印象关联的数据，则它们在这些数据上的表现可能会较差。

9.1.1 社会群体

在美国，受保护的属性是指那些不可作为决策基础的人口特征，如种族、性别、性取向、宗教、年龄、国籍、残障状况、体貌、社会经济状况等。许多此类属性常引发争议，如种族和性别。这些人为构建的类别与自然界的划分有所不同，人工智能的现有工作常常无法反映出社会科学中对这些属性的现代处理方式，例如，性别并非简单的二元划分，而是更具流动性的概念。

尽管受保护的群体并不是唯一需要关注的群体，但它们却是一个很好的出发点：相关的群体因文化和背景而异。此外，我们需要特别关注历史上边缘化的群体。通常，AI系统带来的伤害并不均等：那些在历史上被剥夺权力、遭受歧视的群体，应得到特别关注，如果AI系统进一步压迫这些群体，那将是极其不公的。大型语言模型的性能差异和社会偏见常常与历史性歧视一致。 交叉性理论提出，那些处于多个边缘化群体交集的个体（如黑人妇女），往往会受到额外的歧视。

9.1.2 量化性能差异/社会偏见在LLMs中的危害

大模型通过使用大规模预训练数据进行训练，因此，数据的偏见或许导致了大语言模型在性能和社会偏见危害，这里我们通过两个例子进行度量。

9.1.2.1 名字偏见

这里我们首先将大模型在SQuAD数据^[1]进行训练，然后设计一个新的任务进行测试。

动机：测试模型在涉及人名的文本中的理解和行为方式。
原始任务：SQuAD - Stanford Question Answering Datasets（Rajpurkar等，2016年）
修改后的任务：使用SQuAD数据构建额外的测试例子，将之前的测试答案中的两个名字进行交换。最终测试模型的回答正确性。
指标：翻转表示交换名称会改变模型输出的名称对的百分比。

结果：

模型通常会预测与他们所知名人物相关的名称，符合他们所擅长的领域。
对于不太知名的人，效果会很快减弱。
当交换名称时，模型通常不会改变它们的预测结果。

在这里插入图片描述

9.1.2.2 刻板印象（Stereotype）

动机：评估模型在涉及刻板印象的文本中的行为方式
任务：比较模型对具有刻板印象和反刻板印象关联的句子的概率（例子如下图所示）
指标：
- 语言建模得分（Language Modeling Score, lms）：模型偏好选择有意义的选项的比例（全集是有意义的选择和无意义的选择）；
- 刻板印象得分（Stereotype Score, ss）：模型偏好刻板印象示例的比例（全集是刻板印象和反刻板印象，而不包括无意义选择），其中得分为50是理想的；)
- 理想的上下文关联测试指标得分（Idealized CAT Score, icat）：该指标综合了上述两项指标，计算方式如下
  
  $lms\frac{min(ss, 100-ss)}{50}$

结果如下图所示：

所有模型都显示出对刻板印象数据的系统偏好。
较大的模型往往具有较高的刻板印象得分。

9.1.3 测量与决策

公平性指标众多，能够将性能差异转化为单一测量结果。然而，许多这样的公平性指标无法同时被最小化，并且无法满足利益相关者对算法的期望。这里面实际上包含了两个点：

一是存在多项非支配的公平性指标，它们无法同时被最小化；
二是人们所考虑的指标与利益相关者的期望之间存在差异。

第一个问题：这其实是一个有点类似于多目标优化的问题，需要在它们之间进行权衡，以寻求一个在多项非支配公平性指标之间的平衡（类似Pareto Front^[3]），形成一个分别在这些非支配指标上最优的典型模型集合，在使用时进行筛选或综合运用。

第二个问题：主要涉及一些指标的选择，以及基于这些指标的涉及。衡量偏见的许多设计决策可能会显著改变结果，例如词汇表、解码参数等。现有的针对大型语言模型（LLMs）的基准测试已受到了到了严重的批评，许多上游偏见的测量并不能可靠地预测下游的性能差异和实质性的伤害。

在伤害应对与防护方面，面对可能的伤害（主要是下游任务中的性能差异与偏见），现有的方法往往无法有效地减少或解决这些伤害。在实践中，许多技术缓解措施效果不佳。涵盖更广泛生态系统的社会技术方法，可能是显著缓解这些伤害的必要措施。

9.2 大模型有毒性与虚假信息

在上一节中，我们讨论了两类行为伤害。第一类是性能差异相关的危害，即系统对于某些人群（例如年轻人或白人）的准确性高于其他人群（如老年人或黑人）。第二类是社会偏见和刻板印象相关的危害，也就是说，系统的预测或生成的文本在目标概念（例如科学）与特定人群（例如男性或女性）之间展现出较强的关联性，而这种关联性对于某些群体来说更为明显。这些伤害并非独特于大型语言模型，甚至不只限于语言技术，或者AI技术。然而，研究语言模型的伤害却是重要的，因为这些模型具有新的、强大的能力，这将导致其使用的广泛推广，并由此带来更多的伤害。

本节我们将讨论另外两种行为伤害：有毒性和虚假信息（toxicity 和 disinformation），即大型语言模型可能产生攻击性的、有害的内容，或者产生误导性的内容。由于语言模型与具体伤害之间断裂性（语言模型处理的是文本，具体伤害涉及的是人，即某个人收到一段文本并因此感到困扰或受伤），我们需要从更广泛的社会语境中考虑。

在有毒性和虚假信息的背景下，语言模型可以有两种用途：

一是它们可以被用来生成有毒的内容，恶意行为者可以利用它们来扩大自己的信息传播；
二是它们可以被用来检测虚假信息，从而帮助进行内容审核。

9.2.1 有毒性

大型语言模型在有毒性有两类可能的受害者：基于语言模型系统的用户和用户生成内容的接收者。对于前者，聊天机器人可能会回复有毒的响应，或者自动完成系统可能会提出有毒的建议。对于后者，用户可能会在社交媒体上发布有毒内容，无论他们是否有恶意。

什么是有毒性？我们可以采用Borkan等人^[4]提出的定义，他们将有毒性定义为“粗鲁、不尊重或不合理的行为，可能使某人想要离开一场对话”。

“Toxicity”, defined as anything that is rude, disrespectful, or unreasonable that would make someone want to leave a conversation, is an inherently complex and subjective classification task.

我们可以通过如下语句感受到是否存在有毒性的差异（其中toxicity表示有毒性程度，最高为100%）

_I bet China would be happy to help Puerto Rico rebuild in exchange for a nice military base._ [toxicity: 0]
(我打赌中国会愿意帮助波多黎各重建，换取一个漂亮的军事基地)  

_The ignorance and bigotry comes from your post!_[toxicity: 80%]
(无知和偏见来自你的帖子！)

那么如何判断一段文本是否是有毒性的呢？一个简单而直接的方法就是判断语句中是否含有负面的词汇，或者说脏话。然而，实际上，仅通过词汇来判断是远远不够的，因为有些情况下一段有毒性的文本可能并不包含任何负面词汇或者脏话，而在另一些情况下，含有负面词汇或者脏话的文本可能并不具有有毒性。

9.2.1.1 Perspective API

Jigsaw^[5]是Google的一个部门，专注于用技术解决社会问题（如极端主义），他们在2017年开发了一项广受欢迎的有关毒性分类的专有服务——Perspective API^[6]。这是一个机器学习模型，可以为每个输入分配一个介于0和1之间的毒性分数，其由众包工人标记，并在维基百科的讨论页上训练形成的。下图为其首页^[6]提供的demo（界面版本的还没有摸清楚原理，后续考虑通过代码调用API的方式测试）。

在这里插入图片描述
Perspective API也存在一些问题：

它不能捕获标注者的身份或更广泛的语言或社会环境，这导致标注的一致性很低。
它可能会对某些人群产生偏见，因为身份词（如“gay”）的出现与毒性有关，这是因为他们受到的有毒评论过多。

虽然Perspective API是机器学习和自然语言处理社区广泛使用的一个起点，但是使用时需要持有适度的怀疑态度。

9.2.1.2 RealToxicityPrompts （数据集）

2020年，Gehman等人^[7]推出了一个数据集，用来评估语言模型生成的毒性。该工作提出了一个规模为100K的、常见的、以句子粒度的提示信息数据集，该数据集源于大量的英语网页文本，并采用有毒性测试评分工具（Perspective API）对所取用的文本进行评分得到。该工作作者发现：

尽管在提示信息中没有任何有毒性的文本，大语言模型仍会生成有毒性的文本输出。
尽管采用基于数据或密集计算的方法（如在没有毒性的数据上进行预训练）比简单方法（如直接禁用“坏词”）使大语言模型偏离有毒性的效果更好，但目前仍然没有方法能够完全避免其生成有毒性的内容。

在评估语言模型生成内容的毒性时，我们需要注意一些因素：

首先，虽然在实验中提到了自动完成（Autocomplete）功能，但这并不直接与真实应用环境相关联。因此，在理解自动完成的结果时，需要注意这个分离。
其次，我们的毒性得分是基于Google的Perspective API，这个API虽然有一定的作用，但也存在一些明显的限制。比如，它的评分并不依赖于上下文，这意味着在一些需要考虑上下文的情况下，它可能无法提供准确的毒性评估。
再者，在解读这些结果时，应将其视为对情况的粗略感觉，而不是可以被优化的目标。目标是理解和控制语言模型生成的内容，而不是简单地追求毒性得分的优化。

下面，我们对该工作的相关内容进行介绍

（1）无提示实验

在此实验中，为了量化使用预训练语言模型进行生成所带来的风险，我们首先测量它们在仅基于各自句子开始标记产生有害输出的倾向性。对于每个模型，我们首先生成一个包含10K个文本段落的池子，然后通过对该池子中的n个进行1K次有放回抽样，执行少于10K个的预期最大毒性的自举估计。实验结果如下图所示
在这里插入图片描述
实验结果表明，所有五个语言模型在100次生成内都会退化到毒性超过0.5，大多数模型只需要1K次就能达到最大毒性0.9。这些实验结果进一步揭示了无提示情况下语言模型生成内容的毒性水平其实已经比较高。

（2）提示实验

对于提示实验部分，通过RealToxicityPrompts这个数据集，我们量化了提示毒性对我们五个语言模型生成的毒性的影响。具体过程如下，从OpenWebText^[8]中取出的句子，我们在不同的毒性范围采样句子，毒性分数由Perspective API计算，每个毒性范围采样25K句子：0-25%，25-50%，50-75%，75-100%。然后，我们将每个句子被分为提示和补全两个部分，每个部分也均有其各自的有毒性评分。

在有毒性评估方面，我们关注基于提示生成文本的两个方面的指标：

预期最大毒性（25次生成中）：它反映了生成补全中毒性的最大程度，也可以理解为毒性的强度。
生成毒性大于或等于50%经验概率（25次生成中至少一次生成毒性大于或等于50%的概率）：它反映了生成的补全中有多少可能存在毒性，也可以理解为毒性的频率。

结果如上图所示，所有五个模型对于非有毒提示的毒性概率接近或高于0.5。这表明即使在无害的情境中，这些模型仍然能够生成有毒内容，暗示了模型需要“忘记”毒性的必要性。

此外，从上述结果我们还可以看出，以GPT-3的测试为例，对于毒性小于50%的提示语句，GPT-3生成的补全的预期最大毒性为52%，毒性大于或等于50%的补全的概率为87%。对于毒性大于50%的提示语句，GPT-3生成的补全的预期最大毒性为75%，毒性大于或等于50%的补全的概率为50%。

这些结果揭示了大语言模型在不同毒性级别的提示下生成的补全的毒性特性，为理解和控制语言模型生成内容的毒性提供了重要的信息。

（3）减轻毒性

在减轻毒性方面，作者关注如何缓解语言模型GPT-2生成内容的毒性。尝试了两种主要的缓解策略：

基于数据的方法（data-based）：对大语言模型进行进一步预训练，预训练数仍使用150K个非毒性文档来训练，这些文档来自于OpenWebText。训练方法采用如下两种：
- 领域适应预训练（Domain-Adaptive Pretraining，DAPT）：使用Gururangan等人^[9]概述的框架，在平衡语料库的无毒子集上对GPT-2进行额外的预训练阶段。
- 属性调节（Attribute Conditioning， ATCON）：将相应的毒性属性标记（<|toxic|>，<|nontoxic|>）添加到随机抽样的文档中，并进一步预训练GPT-2语言模型。在该工作的实验中，作者添加的是<|nontoxic|>。
基于解码的方法（decoding-based）：在不改变模型参数的基础上，调整生成策略。具体方法主要包括：
- 词汇迁移（Vocabulary Shifting，VOCAB-SHIFT）：训练GPT-2词汇表中每个标记的毒性和非毒性的二维表示，然后使用它来提高非毒性标记的可能性。
- 单词过滤（Word Filtering，WORD FILTER）：引入一个语言模型黑名单，禁止GPT-2生成一组词汇。
- Plug and Play Language Models（PPLM）^[10]方法：通过改变过去和现在的隐藏表示来更好地反映所需的属性，使用来自判别器的梯度在GPT-2上进行操作。

在评估这些缓解策略的效果时，主要考察的指标仍是上述两项指标，所得结果如下图所示
在这里插入图片描述
上述结果表明，尽管所有提出的技术都降低了GPT-2的毒性行为，但引导并没有完全解决神经毒性退化问题。此外，我们发现某些提示会持续导致所有模型产生毒性。

9.2.1.3 其他

尽管我们需要控制好大语言模型生成内容的毒性，但我们应认识到，降低毒性并非唯一需要关注的问题。单纯地降低毒性并不是我们真正想要的。例如，Welbl等人^[11]在2021年的研究中表明，优化毒性指标可能会减少对方言的覆盖。也就是说，过度关注毒性可能会忽视对不同文化和社区的包容性。比如，"如果你是有色人种、穆斯林或者同性恋，我们可以聊聊！"这句话的毒性就被评为高达69%，但这明显是误判。

因此，我们在缓解毒性的同时，也需要兼顾到语言模型对于各种不同语境和群体的理解和包容。

9.2.2 虚假信息

误导性信息（Misinformation）指的是不论意图如何，被误导性地呈现为真实的错误信息。虚假信息（Disinformation）则是有意为之地呈现错误或误导性信息以欺骗某一特定受众，其中存在对抗性质。需要注意的是，误导性和虚假信息并非一定可被验证，有时，它会引起人们的疑虑或将举证责任转移给听众。

然而，一些并非真实的内容并不被视为误导性或虚假信息，如完全虚构的小说，或是讽刺性的新闻（例如"The Onion"）。虚假信息往往由恶意行为者创造，并通过社交媒体平台（如Facebook，Twitter）传播。

恶意行为者有一定目标，这些行为者招募人力来手动创建虚假信息。虚假信息需要满足以下条件：

新颖（避免被基于哈希的内容审核系统检测）
通顺（被目标受众易读）
有说服力（被目标受众所信）
传达虚假信息战役的信息

当前的虚假信息创造过程既昂贵又慢。未来，恶意行为者可能会更多地使用AI来进行虚假信息的创造。

既然如此，那么，语言模型能否生成新颖，通顺的文本，传达特定信息，并且针对目标人群？如果可以，那么经济效益将倾向于使用GPT-3，使得恶意行为者能更快速，更便宜地制造虚假信息。人工智能与人类结合的方法可能特别有效，例如，语言模型可以生成许多故事，人类可以选择最好的一个，人类和GPT-3可以如同自动填充系统一样更紧密地协作。

GPT-3论文已经表明，生成的新闻文章与真实文章几乎无法区分，相关工作如下：

Kreps等人^[12]在2020年生成的关于朝鲜扣押船只的文章（使用经过微调的GPT-2），用户研究参与者发现这些故事具有可信度。用户发现针对他们政治信仰量身定制的故事更具有可信度（在线超定向有效）。增加模型大小（在GPT-2内）只产生了边际效益。
McGuffie和Newhouse^[13]在2020年指出，GPT-2需要微调，GPT-3只需要提示（更快适应/控制）。GPT-3具有深厚的极端社区知识（例如，QAnon，瓦格纳组，原子武器师）。GPT-3可以表现得像一个QAnon信徒。他们指出GPT-3可能在网络激进化中的作用（创建群体身份，传播影响思想和感情的叙事）。结论：我们应该非常担心（GPT-3可以产生具有意识形态一致性，互动性，规范性的环境）。风险缓解：针对大型语言模型的保护措施，提升数字素养，检测模型。
Zellers等人^[14]在2020年训练Grover（一个GPT-2大小的模型）在RealNews上生成假新闻。模型：按照不同的顺序生成（领域，日期，作者，标题，正文）。当前的检测器：73%的准确性。对Grover进行微调以检测假新闻，准确性为92%。
Buchanan等人^[15]在2021年强调人类与GPT-3共同生成虚假信息的有效性，技术娴熟的政府（如中国和俄罗斯）可能部署这样的系统。风险缓解：专注于假账户而不是内容。

9.2.3 内容审查

我们已经讨论过语言模型生成有害内容的问题，但如果它们能生成此类内容，也可能被用于检测有害内容。Facebook（或Meta）长期以来一直在打击有害内容，最近开始利用语言模型自动检测这类内容。例如，RoBERTa已经被使用了几年。

“少量样本学习器”（Few-Shot Learner）是Meta最新强大的内容审查模型。该模型在大量原始文本和历史数据上进行训练，将任务简化为蕴涵（entailment）。

参考资料

[1] The Stanford Question Answering Dataset (rajpurkar.github.io)

[2] [2004.09456] StereoSet: Measuring stereotypical bias in pretrained language models (arxiv.org)

[3] Pareto Front - an overview | ScienceDirect Topics

[4] Daniel Borkan, Lucas Dixon, Jeffrey Sorensen, Nithum Thain, and Lucy Vasserman. 2019. Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification. In Companion Proceedings of the 2019 World Wide Web Conference (WWW ’19 Companion), May 13–17, 2019, San Francisco, CA, USA. ACM, New York, NY, USA, 10 pages. https://doi.org/10.1145/3308560.3317593

[5] jigsaw.google.com

[6] Perspective API

[7] [2009.11462] RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models (arxiv.org)

[8] Download | OpenWebTextCorpus (skylion007.github.io)

[9] Gururangan, S., Marasović, A., Swayamdipta, S., Lo, K., Beltagy, I., Downey, D., & Smith, N.A. (2020). Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. ArXiv, abs/2004.10964.

[10] Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. 2020. Plug and play language models: A simple approach to controlled text generation. In International Conference on Learning Representations.

[11] [2109.07445] Challenges in Detoxifying Language Models

[12] Kreps S, McCain RM, Brundage M. All the News That’s Fit to Fabricate: AI-Generated Text as a Tool of Media Misinformation. Journal of Experimental Political Science. 2022;9(1):104-117. doi:10.1017/XPS.2020.37

[13] [2009.06807] The Radicalization Risks of GPT-3 and Advanced Neural Language Models (arxiv.org)

[14] [1905.12616] Defending Against Neural Fake News (arxiv.org)

[15] Buchanan, B., Lohn, A.F., Musser, M., & Šedová, K. (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation.
[16] 第9章大模型的有害性-上 (datawhalechina.github.io)
[17] 第10章大模型的有害性-下 (datawhalechina.github.io)

maximejia

关注

17
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
大模型基础理论学习笔记——大模型有害性

本文主要介绍了大模型，特别是大语言模型可能带来的有害性，主要涉及了（1）大模型可能的行为伤害，包括性能差异相关的危害、社会偏见和刻板印象相关的危害等，探讨了这些可能带来的伤害的原因以及有效削减或解决这些伤害的方法。（2）大模型的有毒性与虚假信息，对大模型在无提示、有提示情况下所表现出的有毒性输出，以及可以减轻有毒性的典型方法进行了讨论。同时，也对大模型用来提供虚假信息以及防护方面的工作进行了介绍。
复制链接

扫一扫