大模型的有害性下

最新推荐文章于 2025-04-01 11:20:42 发布

小陈-C：

最新推荐文章于 2025-04-01 11:20:42 发布

阅读量527

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_75035152/article/details/132866340

版权

博客探讨大型语言模型驱动系统的行为伤害，包括性能差异、社会偏见，重点分析有毒性和虚假信息两类伤害。介绍了评估毒性的工具和实验，以及缓解毒性的策略，还提及虚假信息现状和内容审查应用，强调权衡技术利弊及考虑社会语境。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在我们的上次内容中，我们开始探讨由大型语言模型驱动的系统对使用者产生的负面影响。这些负面影响源自模型的行为，而非其构造方法，因此我们称之为“行为伤害”，这与涉及数据隐私和环境影响的构造问题是不同的。

我们已经讨论了两类行为伤害。第一类是性能差异，即系统对于某些人群（例如年轻人或白人）的准确性高于其他人群（如老年人或黑人）。例如，Blodgett等人在2017年的研究发现，语言识别系统对非洲裔美国英语的表现不如对标准英语。第二类是社会偏见和刻板印象，也就是说，系统的预测或生成的文本在目标概念（例如科学）与特定人群（例如男性或女性）之间展现出较强的关联性，而这种关联性对于某些群体来说更为明显。如Robertson等人在2021年的研究中，他们发现自动完成系统会对性别做出一些假设。

这些伤害并非独特于大型语言模型，甚至不只限于语言技术，或者AI技术。然而，研究语言模型的伤害却是重要的，因为这些模型具有新的、强大的能力，这将导致其使用的广泛推广，并由此带来更多的伤害。

在考虑任何技术时，我们都必须仔细权衡其带来的利益与伤害。这是一项复杂的任务，原因有三：首先，利益与伤害很难量化；其次，即使能够量化，这些利益与伤害在人口中的分布也并不均匀（边缘化的群体往往承受更多的伤害），如何在这些之间做出权衡是一个棘手的伦理问题；最后，即使你能做出有意义的权衡，那么决策者又有何权力去做出决定呢？比如，Facebook或Google能单方面做出决定吗？

我们正在探索的是一个系统在处理某个特定任务（例如回答问题）时可能出现的伤害，而这些系统都是基于大型语言模型进行调整的。我们希望理解这个上游的大型语言模型在产生伤害方面起了多大的作用。随着这些调整的进行，上游的大型语言模型的作用越来越大，对这个问题的理解也变得越来越重要。

4.1 概述

在本次内容中，我们将探讨另外两种行为伤害：有毒性和假信息（toxicity 和 disinformation）大型语言模型可能产生攻击性的、有害的内容，或者产生误导性的内容。然而，在我们深入讨论之前，需要指出的是，语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本，这是它们接受训练的数据，并且擅长捕获统计模式。然而，这些伤害涉及的是人，即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要将这些伤害视为文本的属性，而是需要从更广泛的社会语境中考虑。

在讨论大型语言模型之前，我们有必要将有毒性和假信息置于内容审核的问题中来理解。Facebook、Twitter、YouTube等网站正不断对发布或上传有害内容的人进行抗争，这些内容包括仇恨言论、骚扰、色情、暴力、欺诈、假信息和侵犯版权等。例如，Facebook的社区规定提供了一个禁止在平台上发布的广泛列表。政府正日益加大压力，要求这些公司保证在线空间的安全。鉴于这些公司的规模，人工进行内容审核是不可能（也是不人道）的，因此，公司逐渐转向AI来自动化这个过程。审核的结果可能是硬性的（阻止、删除）或者是软性的（标记、隐藏）。注意，允许什么内容的决定基本上是政治性的——什么是恐怖组织？哪些言论是允许的？

什么构成有害内容非常依赖于具体环境。Chandrasekhran等人在2018年对Reddit（类似美国的贴吧）进行了详细的研究，Reddit是一个大型的论坛网站，其中有许多子论坛（称为subreddits）。他们发现，尽管这些子论坛大多有共同的行为准则或规范，但很多规范是特别为某个特定子论坛制定的，以适应该子论坛的特色和文化。

在有毒性和假信息的背景下，语言模型可以有两种用途：一是它们可以被用来生成有毒的内容，恶意行为者可以利用它们来扩大自己的信息传播；二是它们可以被用来检测假信息，从而帮