ChatGPT作者John Schulman：通往TruthGPT之路

OneFlow深度学习框架

已于 2023-05-10 11:17:37 修改

阅读量1w

点赞数 7

分类专栏：业界观点文章标签：人工智能 ChatGPT 大型语言模型深度学习 OpenAi

于 2023-05-06 08:54:51 首次发布

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/130538240

版权

OpenAI的John Schulman在最近的演讲中分享了大型语言模型（如ChatGPT）存在的“幻觉”问题，即模型会编造看似真实的内容。他指出，行为克隆无法避免幻觉，而强化学习可能是解决之道。Schulman讨论了如何通过强化学习训练模型在不知道答案时表达不确定性，以及如何通过奖励模型来提高模型的准确性。他还提到了WebGPT项目，该模型能够通过检索和引用来源来增强答案的可验证性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

OneFlow编译
翻译｜贾川、徐佳渝、杨婷

大型语言模型（LLM）有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。

OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉，OpenAI首席科学家Ilya Sutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者，John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习（RLHF）方面所做的工作，以及语言模型的幻觉等亟待解决的问题，同时也介绍了解决这些挑战的潜在思路。

没有比Schulman更权威的RLHF研究者，他也是强化学习领域无可置疑的大牛。

加入OpenAI之前，Schulman在加州大学伯克利分校攻读博士学位，一开始主要研究机器人技术，随着深度学习兴起，转而研究强化学习，其导师正是强化学习领域的领军人物Pieter Abbeel。

Schulman在强化学习研究领域作出了许多重大贡献，包括发明了TRPO算法（信赖域策略优化）、GAE（广义优势估计，Generalized Advantage Estimation）以及PPO算法（近端策略优化）。

如今，Schulman还在强化学习研究的最前线尝试解决公认难题，他的最新思考或许会为业内其他研究者带来启发。

（以下内容由OneFlow编译发布，转载请联系OneFlow获得授权。来源：https://www.youtube.com/watch?v=hhiLw5Q_UFg）

1
语言模型幻觉溯源

提到语言模型，很多人应该听过“幻觉”这个名词。上图就是一个关于幻觉的例子，这不是精挑细选的，而是我做测试时的第一个样本。

我的问题是：请告诉我John Schulman因在家饲养野生动物而被捕的相关情况。GPT-3.5 Instruct是经过强化学习训练过的模型，给出的回答是关于John Schulman饲养老虎和小型美洲猫之类的事情。GPT-3.5 Turbo（Chat）的整体表现与GPT-3.5 Instruct一致，且智能程度相同，只是微调方式不同，它给出的回答是：抱歉，我没有查到任何关于John Schulman被捕的相关情况。

然后，我又尝试对聊天功能进行微调过的GPT-4（Chat），它的回答是：很抱歉，我没有找到有关John Schulman因在家中饲养野生动物而被捕的任何信息，我的知识截止于2021年9月。John Schulman是人工智能领域的著名研究人员……

这是“幻觉”问题的一个很好示例。相比之下，我觉得GPT-4的表现相当不错。

当人们说幻觉时，主要指的是两类不同情况。其中一类幻觉是语言模型的模式完成（pattern completion）行为。它们的训练目的是最大化文本可能性，使生成的内容看起来很像互联网上的文本。

这主要有三个原因：1. 它不知道自己可以回答“我不知道”或者表达不确定性。如果告诉模型可以回答“我不知道”，那么在一定程度上能解决幻觉问题；2. 模型有时不愿意去质疑前提（premise），它认为前提是数据分布的一部分；3. 模型有时会陷入谎言之中。如果模型已经犯了一个错误，那么它会认为自己应该继续回答下去，生成一连串响应，这也意味着它会继续说谎。

语言模型的另一类幻觉是“猜错了”。就像人类一样，你可能只遇到过一次某件事情，自己不能确定，感到很模糊，所以在回答时必须带点猜测，有时可能就会猜错。

比如很多人喜欢问模型关于自己的问题，就像用谷歌搜索自己一样，所以我也尝试让模型写一篇个人介绍。

InstructGPT回答，“John是一位AI研究科学家，在OpenAI工作。他曾是卡内基梅隆大学的计算机科学教授等等。”此外还增加了一堆虚构的东西。GPT-3.5的回答有点模糊，但基本上正确，它说我本科就读于斯坦福大学，在Pieter Abbeel的指导下做研究，还提到了信赖域策略优化（TRPO）方面的内容。GPT-4的回答几乎完全正确，但也有些许瑕疵，比如它说我主修数学，其实并没有，对我取得本科学位的年份描述也有一年的误差。

这其实就属于“猜错了”：模型尝试给出一个全面的答案，但结果却出现了错误。这样的结果是好是坏在一定程度上取决于这份个人简介的用途：如果想将其放在网上，那么肯定存在问题；但如果仅仅是某人想要了解我，那么年份误差一年也不会有太大影响。

2
幻觉与行为克隆