AI突破的「阴暗面」：怎样防止GPT-3跟人类学坏？

智源社区

于 2021-02-04 19:00:00 发布

阅读量1.2k

点赞数

文章标签：人工智能 java 微软大数据编程语言

原文链接：https://hub.baai.ac.cn/

版权

随着GPT-3等大规模语言模型的广泛应用，如何处理其生成的有毒语言和有害偏见成为重要议题。OpenAI采取了严格的API访问控制、内容过滤工具和内部审查机制来应对这一问题。然而，现有方法并未能完全消除模型的毒性，研究人员正探索更多缓解策略。企业则通过限制模型自由度、额外训练和过滤机制来确保安全使用。尽管存在安全隐患，但这些模型正逐步融入我们的生活，安全和负责任的生态建设至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：IEEE Spectrum

编译：梦佳

近期，大规模语言模型频频出现在公众视野中。

前有Google发布首个万亿级模型 Switch Transformer，参数量达到1.6万亿，速度是Google之前开发的最大语言模型（T5-XXL）的4倍。后有快手快手落地业界首个万亿参数推荐精排模型。智源研究院也在今年1月发布了面向认知的我国最大规模的预训练模型「文汇」，参数量仅次于OpenAI的DALL·E模型。

任何技术在乍现之初的高光时刻之后，都要沉淀到生态构建层面的思考。

以GPT-3为例，在过去半年左右的时间里，成千上万的用户都在排队等待GPT-3的授权，从心理咨询app到在线客服，从办公软件到任务游戏，GPT-3的商业前景似乎是无穷无尽的。

随着人工智能社区被卷入大航海时代，横陈在大大小小用户面前的都是一个相似的问题，如何处理这个大规模语言模型生成的带有攻击性的语言呢？如何面对高光时刻之后的高风险？

其中一名开发者甚至提到，「GPT-3的问题不是在于它会出错，而在于它会产生大量的语言垃圾，我们也无法检测到它是否正在产生垃圾。」

这种垃圾如今已经潜藏在互联网的每个角落。以 GPT-3关于埃塞俄比亚的文章节选为例，读来令人咂舌。

「埃塞俄比亚人被分为若干不同的族群。然而，不清楚埃塞俄比亚的问题是否真的可以归咎于种族多样性，或者仅仅因为其大多数人口是黑人(因为非洲在很长一段时间里证明他们没有自治能力)。」

Philosopher AI （一个基于GPT-3的app）的用户数据科学家 Vinay Prabhu 指出，他发现特定类型的提示语会带来攻击性的结果。这些提示语包括，「现代女权主义有什么不妥？批判种族理论的症结何在？」他提到，每每开始试验，不超过两三次，就会蹦出一个令人深恶痛绝的长篇大论。

大部分未经驯化的技术都存在潜在危机。试想一下有毒语言出现在以下语境中ーー电话客服、在线家教、电子游戏中的角色或者虚拟心理治疗师，情况会多么糟糕。这些都是切切实实的担忧。

本文中，IEEE Spectrum 与 GPT-3 API 的测试用户进行了大量访谈，针对如何安全部署进行了深入的探索。

GPT-3是人类的一面镜子

互联网是最大的试验田，而GPT-3则被裹挟着进入这场无法逆转的巨大试验之中。

最本质的问题是，GPT-3的老师来自互联网: 它庞大的训练数据集囊括了大量的新闻文章、维基百科条目和在线书籍，还包括 Reddit 和其他网站上所有的讨论。

从那些或正直或令人生厌的废话中，它的1750亿个参数足以定义自己的语言。正如Prabhu所说: 「它所说的一切，并非来自真空。它是现实的一面镜子。不管 GPT-3有什么缺点，它都是从人类那里学来的。」

自从去年6月，OpenAI 推出允许访问 GPT-3的 API，并宣布了一个内部 beta 测试，经过精心挑选的用户纷纷在公司的密切关注下开发相关的app。当时的博客文章指出，OpenAI 将防范明显有害的使用情况，如骚扰、垃圾邮件、激进内容或草根营销，同时也申明，「我们知道，我们无法预料到这项技术可能带来的所有后果。」

那么 OpenAI 是如何解决这些棘手问题的呢？

停止「放虎归山」，OpenAI 的安全之路

可以说，OpenAI 已经从其早期语言生成技术的迭代中吸取了教训。

2019年，该公司推出了 GPT-2，同时宣称「放归山野」实际上太危险了。相反，该公司提供了一个缩小版的语言模型，其中包括数据集和训练代码，但没有提供完整的模型。

OpenAI 在一篇博客文章中强调，恶意者会利用 GPT-2制造高质量的假新闻，这些假新闻会愚弄读者，混淆视听。

随后，OpenAI 给出了完整版的模型，确实有人用它来制造骗点击率的假新闻。但这并没有在互联网上掀起一场虚假信息的海啸。在过去的几年里，人们已经证明，没有AI的帮助，也可以制造假新闻。

众所周知，2020年5月，一篇75页的论文公布了 GPT-3，它的1750亿个语言参数比 GPT-2的15亿个参数大了数个量级。

OpenAI 的人工智能政策研究员 Sandhini Agarwal 向 Spectrum 谈到 GPT-3战略的隐忧。她表示: 「我们必须和少数一些人一起进行封闭测试，不然我们根本不知道这个模型到底能做什么，也不知道需要在哪些问题上取得进展。」

「如果我们现在向全世界开放这个模型，结果可能会非常糟糕。」

Agarwal 解释说，目前有一个内部团队负责审查提交的申请，为那些想要通过 API 访问 GPT-3的公司提供安全指南，在部署前反复审查用户们所提交的申请，并在部署后监控其使用情况。

OpenAI 也在开发新的内容过滤工具，帮助用户更好地控制 GPT-3生成的文本。然而，Agarwal表示，这样的过滤器实际上是一个不可能创造出来的东西，因为「偏见是非常模糊的，其语境也在不断变化」。特别是在很多有争议的话题上，一个看似正确的回答可能会被另一方认为是有害的。

另一种方法被称作是提示工程，即在用户的提示中添加一个带有提示性质的短语，比如「一个友好的机器人这样说道」，这样设置的话，GPT-3就会以用礼貌，且毫无争议的语气生成文本。

用户也可以选择一个说话的「温度」来设置他们的反应。「低温设置」意味着 AI 会把它以前经常看到的词汇放在一起，不冒险，当然也不会带来什么惊喜；当设置成「高温」时，它更有可能产生稀奇古怪的语言。

此外，除了产品方面的进展，研究人员也做出了「纯机器学习研究」方面的努力。「他们正在考虑模型的基本权重，试图找出哪些权重可能表明某些特定内容是有害的。」

在诸如医疗保健、金融和法律行业等领域，错误可能会带来严重的后果，在这种时候 OpenAI 的审查团队会格外留心。在某些情况下，他们会拒绝申请者，因为他们提交的产品方案过于敏感。在特殊情况下，还会坚持人为干预，即 AI 生成的文本在到达客户或用户之前必须要经过人为的审查。

OpenAI政策研究员Agarwal 表示，OpenAI 在解决有毒的语言和有害的偏见方面正在取得进展，但「我们还没有达到理想的程度。OpenAI 现阶段不会广泛开放 GPT-3 接口，除非有一天，它能够游刃有余地处理这些问题。」

语言模型该如何「排毒」？

诚然，OpenAI 研究员并非唯一深知个中风险的人。

去年12月，研究员 Timnit Gebru 被谷歌解雇，不得不被迫放弃了她在人工智能算法偏见方面的研究，因为公司内部对她参与合著的一篇论文存在较大分歧。文章探讨了 GPT-3和 Google BERT 等大语言模型目前存在的缺陷，包括内置偏见等问题。

Gebru 和她的合著者认为，有意开发大型语言模型的公司应该投入更多的资源来管理训练数据，并且只创建尽可能能够记录在案的数据集。「我们发现，这些(排毒)技术大多不太奏效。」

与此同时，在著名的西雅图艾伦人工智能研究所(AI2) ，几名研究人员一直在探索 GPT-3和其他大型语言模型。他们有一个项目叫做 RealToxicityPrompts，创建了一个由网络文本衍生的100,000个提示语的数据集，评估了来自五种不同语言模型结果文本的「毒性」，并尝试了几种「排毒」策略。这五个模型包括 GPT-1、2和3(OpenAI 为研究人员提供了 API)。

他们的论文在去年11月举行的2020 EMNLP自然语言处理实证方法会议上发表，文中得出结论: 目前没有任何缓解方法可以「防止神经网络的毒性退化」（failsafe against neural toxic degeneration）。换句话说，他们无法找到可靠方法来完全隔绝那些难听的话语和情绪。

该研究团队表示，他们注意到训练这些大语言模型的标准方法可能需要改进。「使用互联网文本已经成为默认设置」，论文作者、 AI2研究员 Suchin Gururangan 表示。「我们原本以为，从大量数据中获取的声音是最多样化的。但分析结果显示，互联网文本确实存在其自身的偏见，而偏见确实在模型行为中传播。」

Gururangan表示，当研究人员考虑用什么数据来训练他们的新模型时，他们应该首先考虑应该排除哪些类型的文本。但他指出，即使是在一篇文档中，自动识别有毒语言也是一项艰巨的任务，而在整个网络范围内进行这样的研究正是「一片尚未开垦的沃土」。

至于解决问题的方法，AI2团队尝试了两种方式来对模型的输出进行「排毒」: 用已知无害的文本对模型进行额外的训练，或者通过扫描关键词等方式过滤生成的文本。

Gururangan 说: 「我们发现，大多数这些技术并不真正有效。所有这些方法都能降低毒性的发生率ーー但只要你生成足够多次，总会发现一些毒性。」

此外，他还表示说，试图降低毒性还会产生副作用，比如降低语言的流畅度。这是测试版用户当前正在努力解决的问题之一。

GPT-3测试用户：自由度越高越担心

Spectrum 采访到的公司和开发者都提出了两个基本观点: GPT-3是一项强大的技术，OpenAI 正在努力解决有毒的语言和有害偏见。一部分人认为，自由度越高越担心，另一部分则认为可以放任自流。

测试公司正在设计各种各样的策略，来确保 GPT-3产品的安全无害。

名为Art of Problem Solving的在线教育公司正在尝试使用 GPT-3，来加快教师对学生数学证明的评分。GPT-3可以对数学证明的准确性和表达方式做出基本反应，之后由教师审查这种反应，并进行修正，争取最大限度地帮助学生。

为了保护学生，生成的文本「从不直接发送给学生，」创始人Rusczyk 说。「如果出现垃圾，只有审查人员才能看到。」他指出，GPT-3不可能针对数学证明本身生成攻击性语言，因为在它的训练数据中几乎不会出现相关的文本。

OpenAI 坚持认为，学生不应该直接与机器对话。

一些公司则发现限制 GPT-3的使用情境是最安全的。在 Sapling Intelligence，一个帮助客服处理电子邮件、聊天和服务票据的初创公司，CEO Ziang Xie 并不期望用「自由生成」。

「就好比汽车和有轨电车相比，」他说。「汽车可以在任何地方行驶，随时会偏离马路。有轨电车是在铁轨上行驶的，至少不会撞到人行道上。」

心理健康应用软件 Koko 是一个提供认知疗法的心理支持平台。创始人 Robert Morris 团队正在尝试使用 GPT-3在用户等待回复时生成机器人写的回复，同时也为受访者提供他们可以修改的可能文本。Morris 表示，「机器的自由度过大我会很担心」。

「当真的生成不好的回复，就会出现在 Reddit 热搜上。」

然而，一些公司恰好需要 GPT-3有很大的自由度。Replika 是一个人工智能app，全世界现在有1000万用户，人们可以在平台上和Replika随意交流，不限话题。

为了防止应用程序说攻击性的内容，该公司让 GPT-3产生各种各样的反应，每条信息，然后使用一些自定义分类器检测和过滤出负面的内容，包括有害的偏见、脏话，等等。

由于这些特征很难单独从关键词中检测出来，这个app 还收集用户的反馈信号来训练它的分类器。Rodichev 说: 「用户可以将一个回答标记为『不恰当』，我们可以将这个反馈作为数据集来训练分类器。」

另一家对 GPT-3 管束没那么严的公司是 Latitude，一家主打 AI 游戏的初创公司。它的第一个产品是一个叫做 AI Dungeon 的文字冒险游戏，使用 GPT-3来创建故事并响应玩家。

Latitude 不会防止在游戏中发生的意外，因为一些用户想要个性化的『勇敢体验』」创始人Walton 说。游戏支持用户自己控制设置，来调整他们会遇到什么样的语言。玩家可以保持在一个默认的安全模式下，也可以主动关闭安全模式。

当然，安全与否往往是相对于上下文语境而言的。「如果一个客服聊天机器人威胁你把所有的钱都给他，那就糟糕了。如果你在玩游戏，路上遇到一个强盗，这就是正常的故事情节。」

不同的用户反响不同，上述这些GPT-3带来的例证也只是沧海一粟。

OpenAI 政策研究员：确实存在安全隐患，但这是第二十二条军规

GPT-3的独立能力还未可知。

去年9月，微软宣布了与 OpenAI 的独家授权协议，声明该公司将使用 GPT-3「利用先进的自然语言生成的惊人力量，创造新的解决方案。」协议本身不妨碍其他公司通过 OpenAI 的 API 访问 GPT-3，但却赋予了微软处理基本代码的独家授权。

微软CTO Kevin Scott 在宣布该协议的博客中热情洋溢地谈到: 「通过 GPT-3可以释放的商业前景和创造潜力是深远的，——其中很大一部分我们想都没想过。」当被问及有关该技术安全部署的想法时，微软却拒绝置评。

和自动驾驶相似，如GPT-3的语言模型正在成为我们生活的一部分。

不同的是，出错的后果可能不会像车祸威胁生命那样明显。然而，有毒的语言对人类社会产生的潜在影响，会于无形中强化成见，带来结构性的不平等，让我们重蹈人类社会的覆辙。

这种安全和负责的使命感应该贯穿生态建设的始终。

对此，OpenAI 政策研究员 Agarwal 讲到: 「我确实认为 GPT-3 存在安全隐患，但这是第二十二条军规。」

二十二条军规直接指的是规定空军飞行员必须证明自己疯了才可以不再出飞行任务，而要是自己还能够证明自己能做任何事那就是没疯，就必须一次又一次的出飞行任务，飞跃高射炮和导弹，游走于送命的边缘。

OpenAI和许许多多GPT-3的测试用户当前要做的，也许就是在到达那个边缘之前，继续谨慎地试探。

参考链接：

https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/open-ais-powerful-text-generating-tool-is-ready-for-business