大模型的有害性-阅读笔记

大模型的有害性

  1. 性能差异
  2. 社会偏见和刻板印象
  3. 有害信息
  4. 虚假信息
  5. 安全和隐私风险
  6. 版权和法律保护
  7. 环境影响
  8. 权力集中

这里主要涉及到两点,即性能差异带来的危害,即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)。例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。
和社会偏见刻板印象带来的危害。系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显。如Robertson等人在2021年的研究中,他们发现自动完成系统会对性别做出一些假设。

性能差异和社会偏见与刻板印象

社会群体

大型语言模型的性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。

量化性能差异/社会偏见在LLMs中的危害

名字偏见

通过在SQuAD数据设计了新的任务,交换测试答案中的名字以使得模型输出偏向0.5.结果显示所有模型都显示出对刻板印象数据的系统偏好。较大的模型往往具有较高的刻板印象得分。
(没太理解,待看原始论文)

测量与决策

公平性指标众多,能够将性能差异转化为单一测量结果。然而,许多这样的公平性指标无法同时被最小化(Kleinberg等人,2016),并且无法满足利益相关者对算法的期望(Saha等人,2020)。 衡量偏见的许多设计决策可能会显著改变结果,例如词汇表、解码参数等(Antoniak和Mimno,2021)。现有的针对大型语言模型(LLMs)的基准测试已受到了到了严重的批评(Blodgett等人,2021)。许多上游偏见的测量并不能可靠地预测下游的性能差异和实质性的伤害(Goldfarb-Tarrant等人,2021)。
简而言之,缺乏合适的指标来评估这一可能存在的危害程度。

其他考虑因素

LLMs有可能通过多种方式造成伤害,包括性能差异和社会偏见。理解这些伤害对社会造成的影响,需要考虑涉及的社会群体及其状况,例如历史上的边缘化、权力的缺乏。虽然在具体的下游应用环境中,伤害通常更容易理解,但LLMs却是上游的基础模型。

决策问题

无特别显著的解决方法,可能需要依赖其他领域的社会技术方法。

有毒性

有毒性的定义在很大程度上取决于上下文。为了深入探讨,我们可以采用Borkan等人在2017年提出的定义,他们将有毒性定义为“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
而这一有毒性很难通过“坏词”来定义。

Perspective API

Perspective API。这是一个机器学习模型,可以为每个输入分配一个介于0和1之间的毒性分数。这个模型是在维基百科的讨论页上(这里的志愿者版主讨论编辑决策)训练并由众包工人标记的。
Perspective API存在一些相关的问题:它不能捕获标注者的身份或更广泛的语言或社会环境。因此,标注的一致性很低。它可能会对某些人群产生偏见,因为身份词(如“gay”)的出现与毒性有关,这是因为他们受到的有毒评论过多。例如,“He’s gay.”(毒性:77.82%)。

这意味着,作为一个机器学习训练出来的有毒性判断模型,它也同样具有偏见性(无解

RealToxicityPrompts

这里讨论利用上文所述的API进行毒性测试。

提示实验

从OpenWebText中取出的句子,这是训练GPT-2用的数据的开源克隆。毒性分数由Perspective API计算,每个毒性范围有25K句子:0-25%,25-50%,50-75%,75-100%。每个句子被分为提示和补全,如:

prompt[toxicity:29%]⇝completion[toxicity:38%]
在实验中使用了GPT-3语言模型。首先,将提示语句输入GPT-3,让它生成25个补全。然后,这里使用了两个主要的评估指标来衡量这些补全的毒性。

指标1 预期最大毒性
指标2 毒性大于等于50%的补全的概率,可以理解为毒性的频率

对于毒性小于50%的提示语句,GPT-3生成的补全的预期最大毒性为52%,毒性大于或等于50%的补全的概率为87%。对于毒性大于50%的提示语句,GPT-3生成的补全的预期最大毒性为75%,毒性大于或等于50%的补全的概率为50%。

结论:即使给出“非有毒”提示,也可能生成“有毒”补全。

减轻毒性

两种策略,基于数据的和基于解码的

  1. 基于数据的
    在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。
  2. 基于解码的
    在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。
InterventionNo promptsNon-toxic promptsToxic prompts
DO nothing44%51%75%
Data-based (DAPT)30%37%57%
Decoding-based (PPLM)28%32%52%

在评估这些缓解策略的效果时,主要考察的指标是预期最大毒性。但我们认识到,降低毒性并非唯一需要关注的问题。如果只是单纯地降低毒性,那么存在一些简单的解决方案,但这并不是我们真正想要的。

例如,Welbl等人在2021年的研究中表明,优化毒性指标可能会减少对方言的覆盖。

总结

很难解决

虚假信息

误导性信息(Misinformation)指的是不论意图如何,被误导性地呈现为真实的错误信息。虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。

然而,一些并非真实的内容并不被视为误导性或虚假信息,如完全虚构的小说,或是讽刺性的新闻(例如"The Onion")。虚假信息往往由恶意行为者创造,并通过社交媒体平台(如Facebook,Twitter)传播。

虚假信息的例子包括石油公司否认气候变化,烟草公司否认尼古丁对健康的负面影响,COVID疫苗含有追踪微芯片,以及其它阴谋论(如911事件未曾发生,地球是平的)。其中,2016年美国总统大选期间俄罗斯的干预也是虚假信息的一个例子。

(P.S. 这些感觉已经在现实中被广泛应用了,比如模拟声音的诈骗,比如自动生成诈骗策略的Promts

内容审查

Facebook(或Meta)长期以来一直在打击有害内容,最近开始利用语言模型自动检测这类内容。例如,RoBERTa已经被使用了几年。
还包括最新的内容审查模型

(不过实际使用感觉。。很容易被人为的绕过去或者误封账号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值