前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀

OneFlow深度学习框架

已于 2024-08-15 16:00:05 修改

阅读量5.9k

点赞数 20

分类专栏：业界观点文章标签： chatgpt 人工智能 OpenAI gpt AIGC

于 2024-08-08 18:06:01 首次发布

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/141042827

版权

业界观点专栏收录该内容

112 篇文章 96 订阅

订阅专栏

8月6日，OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职，将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。

近9年前，Schulman在研究生毕业后加入OpenAI，成为创始团队的一员。他是深度强化学习的早期先驱之一，很多人不知道的是，他也是ChatGPT项目的负责人，是他领导了ChatGPT的秘密武器RLHF（人类反馈的强化学习）技术的研究与开发。

在负责ChatGPT之前，他发明了广泛应用的近端策略优化算法（PPO），这实际上也是ChatGPT训练的一部分。他还发明了信任区域策略优化（TRPO），对OpenAI Gym、OpenAI Benchmark以及现代深度学习时代的许多元学习算法作出了重要贡献。值得一提的是，其博士导师是强化学习领域开拓者、加州大学伯克利分校教授Pieter Abbeel。

Schulman兼具研究视野，又有丰富的工程实践基础。从硕士阶段开始，他就开始研究强化学习算法，从数据收集与语言模型的训练与交互，对大模型技术栈的不同部分都有丰富的经验与探索。或许，他是对OpenAI大模型的独门秘笈了解最多的人。

在给OpenAI同事的告别信中，Schulman表示，选择离开是为了专注AI对齐研究，正如此前相继出走OpenAI的首席科学家Ilya Sutskever与超级对齐负责人Jan Leike给出的类似理由。早前，在Jan Leike离职之后，Schulman成为OpenAI的对齐科学工作团队（也被称为“后训练（Post-training）”团队）的负责人，现在，他将与已加入Anthropic的Jan Leike再度并肩作战。

近期，在最后一次以OpenAI成员身份接受知名科技播客博主Dwarkesh Patel的访谈中，Schulman也指出，随着AI性能的提升，我们可能需要暂停进一步的训练，以确保能够安全地掌控技术。这足以看出他对AI对齐的重视。

此外，他们还探讨了如何通过预训练、后训练提升大模型的能力，以及AGI的未来等话题。Schulman预测，未来几年内，AI将能够承担更复杂的任务，例如整个编码项目，并从错误中自我修复。

（以下内容经授权后由OneFlow编译发布，转载请联系授权。来源：https://www.dwarkeshpatel.com/p/john-schulman）

来源 | Dwarkesh Podcast

OneFlow编译

翻译｜杨婷、宛子琳、张雪聃

1 大模型的预训练、后训练及泛化

Dwarkesh Patel：当前的GPT-4有一个Elo分数，比最初发布的高出大约一百分，这都是后训练带来的改进吗？

John Schulman：是的，大部分是后训练，但也还有很多不同的、单独的改进。我们会考虑数据质量及数据数量，其实只是进行更多次的整个过程部署和收集新数据，以及改变收集的注释类型，但所有因素一起会给你带来相当显著的收益。

Dwarkesh Patel：预训练和后训练之间有很大差别，除了损失函数和训练机制这些具体的技术细节之外，从更宏观、更概念化的角度来看，预训练究竟创造了什么？后训练在此基础上又做了什么？

John Schulman：在预训练中，本质上是训练模型模仿互联网或网络上的全部内容，包括网页、代码等，因此，我们得到了一个能够生成类似于随机网页内容的模型。该模型还被训练于对所有内容赋予概率，以将概率最大化。

模型的主要目标是基于之前的词元序列预测下一个词元（token），这里的“词元”可以是单词，也可以是单词的一部分。由于模型必须对它赋予一个概率——我们正在训练以最大化对数概率，最终它会变得非常准确。它不仅能生成网络的全部内容，还能给一切内容分配概率。基础模型能扮演多种角色，也能生成多样化的内容。

在后训练阶段，我们的目标会更加明确，通常是让模型充当特定类型的聊天助手。这意味着，模型将被塑造成一个特定的角色，其核心任务是提供帮助。它并不是在模仿人类，而是在实际回答问题或执行任务。我们优化的方向是产出人类认为有用且喜爱的结果，而不是单纯复制网络上未经加工的内容。

Dwarkesh Patel：更好的后训练会是一种巨大的竞争优势吗？目前，公司之间通过其模型规模等指标来实现区分度。

John Schulman：确实有一些竞争优势，因为这是一项非常复杂的操作，需要很多技术熟练的人来完成，他们需要掌握大量的隐性知识和组织知识。

通过后训练来创建一个真正具备人们关心的功能的模型十分复杂，需要相当繁琐的努力和大量的研发积累，这也造就了其竞争优势。立即开始操作并不容易，那些最努力做预训练的公司似乎也在同样进行后训练。

在一定程度上，或许可以复制或开启更多这样的训练。还有一种力量使得模型的竞争优势不那么强劲，你可以把模型蒸馏，或者使用别人的模型并克隆其输出，通过使用别人的模型作为评估来进行比较。

更大规模的公司可能不会这么做，因为这会违反服务条款政策，对其自尊心也是一种打击。但我预计，一些较小的公司正在通过这样做起步，以追赶竞争者的步伐。

Dwarkesh Patel：假设RL在更智能的模型上能够更好地发挥作用。在预训练和后训练之间花费的计算比例会显著倾向于后训练吗？

John Schulman：对这一点存在一些争论，现在这一比例相当不平衡。你可以辩称，模型生成的输出比网络上的大多数内容质量更高，所以让模型自己去思考，而不是仅仅训练模型去模仿网络上的东西，这更有意义。我们通过后训练获得了很多收益，所以我期望能够继续推动这种方法，并可能增加投入其中的计算量。

Dwarkesh Patel：目前已经有一些非常擅长充当聊天机器人的模型。你认为，年底发布的模型将能够做到什么程度？

John Schulman：在未来一两年内，我们可以期待模型执行比目前更复杂的任务。例如，它们将不仅仅局限于提供单一函数的编写建议，而是能够承担起整个编码项目。这些模型将能够理解高层次的指令，自主地编写代码文件、执行测试，并分析结果。它们甚至能够进行多轮迭代，以完成更为复杂的编程任务。

要实现这一目标，我们需要对模型进行更复杂的组合训练，使其能够胜任难度更大的任务。

此外，随着模型性能的提升，它们从错误中恢复或处理边缘情况时将变得更加高效。一旦遇到问题，它们将能够有效地自我修复。

未来，我们将不必依赖大量数据来指导模型如何纠正错误或回到正确的工作路径。哪怕是少量数据，或者模型基于其它情境下的泛化能力，都足以让它们在遇到障碍时迅速调整并回到正轨。相比之下，目前的模型在面对困难时往往容易陷入僵局，止步不前。

Dwarkesh Patel：泛化是如何帮助模型回到正轨的，泛化与强化学习之间有什么联系？

John Schulman：两者之间并没有直接联系。通常情况下，我们依赖少量数据来处理各种问题。当你汇集了一个包含广泛样本的数据集，你就能够从中获得各种情况的代表性数据。如果你拥有一个泛化能力出色的模型，哪怕它只接触过几个关于如何纠正错误并回到正轨的实例，或者在预训练阶段只学习过几个类似的案例，该模型也能够将这些有限的经验和知识应用到当前的问题上。

如果模型的泛化能力较弱，但数据足够充分，也几乎能够完成任何任务，只是可能需要在特定领域或技能上投入很多努力。相比之下，对于泛化能力更强的模型，也许不需要任何训练数据或别的努力就能把任务完成好。

Dwarkesh Patel：目前，这些模型能够保持连续工作五分钟。我们期望它们能够逐步承担起更加复杂的任务，比如那些人类需要花费一个小时、一周、甚至一个月来完成的工作。要实现这些目标，是否每提升到一个新的水平，都需要增加十倍的计算资源，类似于预训练的规模定律？还是随着模型在样本利用效率上的提升，我们能够通过一种更加高效和简化的过程，直接达到长期执行任务的能力，而不必每次都大幅度增加计算资源？

John Schulman：从高层次来看，我认同完成长期任务确实需要模型具备更高的智能，这类任务的训练成本也会更高。我认为，其中不存在非常清晰的扩展定律，除非以非常谨慎的方式，或者以特定的方式设计实验。可能会出现一些阶段性的转变，在达到一定水平后，模型就能处理更长时间的任务。

例如，人类在进行长期规划时，可能并不会因为时间尺度的不同而改变其基本的思维机制。无论是短期还是长期规划，我们可能都使用了相同的心理机制，这种过程不同于需要考虑时间尺度的折扣因子的强化学习。

通过语言，我们可以界定并规划不同时间尺度的目标。无论是即将到来的一个月，还是遥远的十年，我们都能立即采取行动，朝着既定目标迈进。尽管我不确定这是否标志着一种质的飞跃，但我期待模型能够展现出跨时间尺度的通用能力。

Dwarkesh Patel：看上去，目前我们的模型在单个词元处理上非常智能，可能与最聪明的人类没什么差别，但它们无法持续有效地执行任务，比如五分钟后继续编写代码，以符合项目的长期目标。如果开始长期强化学习训练，能立即提升模型的长期连贯性，我们是否应该预期它能达到人类水平？

John Schulman：进入这一训练阶段后，我们会遇到什么，进展会有多快，还不确定。模型可能还会有其他缺陷，比如在决策方面不如人类。这种训练无法解决所有问题，但提高长期任务能力会有显著进步。

Dwarkesh Patel：这种情况合理吗？是否还有其他可能导致瓶颈的原因？鉴于模型已经通过预训练获得了广泛的知识表示，借助强化学习长时间保持连贯性，还有哪些挑战有待克服？

John Schulman：可能人类专家在执行不同任务时会带入某些独特经验，比如具有审美能力或更好地处理模糊性。如果我们想要进行研究等工作，这些因素将会发挥作用。

显然，模型的实际应用会受到一些日常功能的限制，无论它能否使用用户界面、与物理世界互动，还是能否获取所需资源。因此，可能存在许多暂时性的障碍，虽然这些障碍不会持久，但最初可能会拖慢进展。

Dwarkesh Patel：你提到由于模型能够从预训练经验中泛化，这一过程可能会更加样本高效，特别是在不同情境中摆脱困境的能力。那么，你见过的最有力的泛化和知识迁移的证据是什么？未来模型的能力似乎取决于其泛化程度，有没有特别令人信服的泛化实例？

John Schulman：在后训练阶段，我们确实观察到了一些有趣的泛化案例。一个典型的例子是，如果使用英语数据进行微调，模型在其他语言中也能表现良好。例如，用英语数据训练的助手在处理西班牙语查询时也能做出合理的响应。虽然有时它会在用英语或西班牙语回复上出现小差错，但大多数情况下，它能正确地用西班牙语回应西班牙语的输入。

这是模型泛化能力的一个有趣的实例，它能够迅速适应并自动以正确的语言做出恰当回应。我们在多模态数据上也看到了类似的情况，即如果你仅进行文本微调，模型在图像处理上也能表现出合理的能力。

在ChatGPT发展的初期，我们试图解决模型理解自身局限性的问题。早期版本的模型曾错误地认为自己能够执行发送电子邮件或呼叫Uber等操作。模型试图扮演助手角色，可能会向用户错误地确认已经发送了电子邮件，而实际上它并没有这样的能力。

为此，我们着手收集数据以解决这些问题。我们发现，即便是少量的针对性示例，一旦与其它数据混合使用，也能有效地解决问题。我记不清确切的示例数量了，大约是30个左右，但这些少量的示例展现了模型的一般行为特征，并说明了模型并不具备某些功能。这些示例在模型未曾专门训练的其他领域也表现出良好的泛化效果。

Dwarkesh Patel：假设你有一个模型，它被训练为能够长时间保持连贯性。暂且不考虑可能存在的其他限制，明年我们是否可能拥有达到人类水平的模型？我设想的是一个像与同事一样互动的模型，效果也一样好。你可以让它们去做一些事，它们就能完成。

John Schulman：很难说清。目前与这些模型交流时，除了长期连贯性问题，还存在多种缺陷，例如难以深入思考或专注于所提的问题。

我认为，仅通过小幅提升连贯性并不足以实现（AGI）。我无法具体阐述哪些主要缺陷会阻碍它们成为一个功能完备的助手。

2 大模型的推理能力

Dwarkesh Patel：显然，RLHF让模型更有用，这点很重要，所以“脑叶切除（lobotomized）”的描述可能不准确。然而，这些模型一旦被放入Chatbot的形式，它们的说话方式都非常相似，十分想“深入”讨论，希望将信息或内容转换成项目符号列表的形式，常常显得死板且乏味。

有人抱怨这些模型不够有创意。就像我们之前谈论的那样，直到最近，它们也只能写押韵的诗，无法输出不押韵的诗。这是现在RLHF的特定方式吗？如果确实如此，是评估者导致的吗？还是因为损失函数？为什么所有的Chatbot看起来都是这样？

John Schulman：我认为，训练过程的具体方式还有相当大的改进空间。我们正在积极努力改善这一点，把写作变得更加生动有趣。我们取得了一些进展，比如改进ChatGPT的个性，使它更有趣，与它闲聊的效果更好，不再那么机械了。

还有一个有趣的问题，特定词汇是如何出现的，比如“深入（delve）”。我最近也发现自己用了这个词，不知道是不是受模型的影响。可能还有一些别的有趣的效应，语言模型和提供者之间可能无意中存在蒸馏。如果你雇人去做标注任务，他们可能只是把东西输入到模型中，可能会调出他们最喜欢的Chatbot，输入任务，让模型完成任务，然后复制并粘贴回来。所以，这可能解释了某些输出的趋同现象。

人们确实喜欢列出要点，以及结构化的回答，并从模型中获得大量信息。其中有多少是后期训练过程中特定选择和设计的怪癖，有多少是人们真正想要的，还不得而知。

Dwarkesh Patel：从人类心理学的角度来看，我们应该如何界定当前强化学习系统对模型的影响？它是作为一种驱动力存在，还是作为一个目标或冲动？它是如何引导模型不仅仅改变Chatbot的表达方式，而是更深层次地调整其输出内容，比如避免某些言辞，采用更合适的表达？

John Schulman：在AI领域，强化学习机制与人类的内在动机或目标追求有相似之处，旨在引导系统朝着特定的状态发展，而非其他的可能性。然而，人类对于动机或目标的理解更为复杂，它不仅关乎实现目标，还包括实现目标时伴随的成就感等情感体验。这些情感体验更多地与学习算法相关，而非模型在固定状态下运行时的表现。

不知道我的类比够不够接近。在某种程度上，模型确实以某种有意义的方式拥有驱动力和目标。通过RLHF，模型试图最大化人类的认可，这通过奖励模型来衡量，而模型只是试图输出人们会喜欢并判断为正确的内容。

Dwarkesh Patel：我听过至少两种使用内部独白（internal monologue）来提高推理能力的想法。一种是模型从自己的输出中学习，通过一系列可能的思维线索，它学会了跟随最终输出正确答案的那一个，然后在部署前对它进行训练；另一种是在部署时使用大量计算进行推理，这种方法需要模型在部署时“自言自语”。哪种训练方式更能提升模型的推理能力？

John Schulman：根据定义，推理是需要一些测试时逐步计算的任务，我也期望能够在训练时方面有所收获，我认为，将这两种方法结合会得到最好的结果。

Dwarkesh Patel：目前，AI模型主要通过两种方式学习：一是训练阶段，包括预训练和后训练。预训练占据了大部分计算资源，处理数万亿的词元，快速吸收海量信息。人类若以这种方式学习，很可能会迷失方向，这种方法并不够高效。二是上下文学习，这种方式样本效率更高，但每次交互结束后学习成果也随之消失。我很好奇是否存在第三种学习方式，它既不会因每次交互而丢失，也无需处理海量数据。

John Schulman：确实，当前系统缺少的正是这种介于大规模训练（即创建一个能够执行一切任务的单一模型）和上下文学习之间的中间地带。部分原因在于，我们已经大幅扩展了上下文长度，以至于没有太多动力去探索这两者之间的领域。如果上下文长度能够达到十万甚至一百万，实际上这已经相当充足。在许多情况下，上下文长度并不是限制因素。

我也认为，可能还需要通过某种微调来补充这种学习方式。微调和上下文学习所带来的能力在某种程度上是相辅相成的。我期望构建能够在线上学习并具备一些认知技能的系统，比如能够进行自我反思，并寻找新知识来填补知识空白。

Dwarkesh Patel：这些过程是否同时进行？还是说，存在一种新的训练机制，能够让长短期任务和各种训练需求同步实现？它们是否相互独立，还是说模型已经足够智能，能够同时进行自我反思并执行长期任务，以确保在长期目标上获得适当的回报？

John Schulman：如果你正在进行某种长期任务，实际上是边做边学。要完成一个涉及众多步骤的任务，唯一的方法就是在学习过程中不断更新你的学习和记忆。这样，短期记忆与长期记忆之间就形成了一个连续的过渡。

当我们开始更多地关注长期任务时，我预计这种能力的需求将开始变得清晰。在某种程度上，将很多内容放入上下文帮助很大，因为我们现在有非常长的上下文。不过，你可能仍然需要微调。

至于内省和主动学习的能力，模型可能会自动了解到自己哪方面的能力下降。模型确实会校准自己所了解的知识，这就是不会产生严重幻觉的原因。模型对自己的局限性有一定理解，同样的能力可以用于主动学习（active learning）等等。

Dwarkesh Patel：你期望的RL是什么样的？假设到今年年底或明年，你有一个可以在屏幕上与你一起工作的助手，这样的假设合理吗？后续会往什么方向发展呢？

John Schulman：我绝对希望RL朝这一方向发展，但目前还不清楚最好的形式是什么。可能会像电脑上提供帮助的Clippy一样，或者更像是云空间的一个能够提供帮助的同事。可以期待一下哪种形式最有效，我觉得人们会全都试个遍。

我期望这个助手或有帮助的同事的心智模型能变得更加真实。你可以跟它分享更多日常工作，不只是进行一次性查询，而是有一个你正在做的整个项目，它知道你在那个项目中做的所有事。模型甚至可以主动提出建议，也许你可以告诉它记得问我这个问题，以及我是否有所进展。模型一直以来欠缺主动性，我希望能看到从一次性查询转变为与模型合作的整个项目。

3 大模型的发展进入了“平台期”？

Dwarkesh Patel：与你在2019年的期望相比，AI的发展速度比你预期的快还是慢？

John Schulman：自GPT-2以来，比我预期得要快。我非常认同的是，规模和预训练作用很大，但当GPT-2完成时，我并没有完全相信它会彻底改变一切。

真正的变革是在GPT-3之后，我转变了自己以及团队的工作方向。在那之后，我们聚在一起会说，“哦，是的，让我们看看能用这些语言模型做些什么。”但在GPT-2发布时，我还不太确定这一点。

Dwarkesh Patel：自GPT-4以来，似乎没有一个模型有显著的改进，一种假设是，我们可能正在接近某种平台期。这些模型实际上并没有很好地泛化，将触碰到“数据墙”（https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8），在这个数据墙之外，通过记忆大量预训练数据集解锁的能力不会帮助你获得比GPT-4更智能的模型。这一假设正确吗？

John Schulman：我们即将达到数据墙吗？我无法从GPT-4发布以来的这段时间得出足够的结论，因为训练这些模型并为训练新一代模型做所有的准备工作确实需要一段时间。由于数据量有限，确实具有挑战性，但不会立即达到数据墙。然而，随着越来越接近“数据墙”，预训练的性质会有所改变。

Dwarkesh Patel：我们谈到了一些关于泛化的例子，如果训练了一堆代码，它会在语言推理上变得更好吗？你是否观察到不同模态之间的正向迁移效应？当模型在大量视频和图像上进行训练后，是否能够通过这些合成数据变得更加智能？还是说，它所获得的能力仅仅局限于训练集中所使用的特定类型的标签和数据？

John Schulman：我认为，由于无法创建那么多预训练模型，对这类问题进行研究十分困难。也许你不能训练一个GPT-4大小的模型并在那个规模上进行消融（ablation）研究。也许你可以训练很多GPT-2大小的模型，甚至GPT-3大小的模型，用不同的数据混合看看会得到什么。我不了解任何涉及代码数据和推理性能等消融的公开结果，对此，我自己也很感兴趣。

Dwarkesh Patel：我很好奇，随着规模变大，模型变得更聪明。而GPT-2级别的消融表明，没有太多的迁移效果，这将为GPT-4级别的模型在类似的领域中的迁移水平提供证据吗？

John Schulman：是的，但你无法得出结论，如果迁移在GPT-2大小的模型失败，那么也会在更大的规模上失败。更大的模型可能会学习更好的共享表示，而较小的模型则过于依赖记忆。因此，更大的模型可以学习如何进行正确的计算，这在某种程度上是正确的。

Dwarkesh Patel：答案可能非常简单。你在相同数量的数据上训练更大的模型，它们变得更聪明。或者要达到同样的智能水平，你只需要在较少的数据上训练它们。模型的参数更多，看到的更少，现在却同样聪明。为什么会这样？

John Schulman：目前对参数计数的规模定律不存在一个很好的解释，我甚至不知道最优秀的心智模型（ mental model）是什么。显然，如果你有一个更大的模型，就有更大的容量，所以最终应该获得更低的损失。

为什么更大的模型更具有样本效率？你的模型就像是一个执行计算的不同电路的集合，你可以想象它正在并行计算，输出是它们的加权组合。如果你有更多的宽度（实际上宽度与深度有些相似，因为具有残差网络的深度可以在残差流中更新与宽度相似的东西）。

当并行学习所有不同的计算，这时用一个更大的模型就能计算更多，所以你拥有更多机会进行猜测，其中一个是正确答案，最终能够多次猜测正确，模型效果由此得到提升。

部分算法是这样运行的，比如混合模型或乘法权重更新算法，而混合专家算法本质上是一些带有学习门控的专家的加权组合。

你可能会这样想象，只要拥有一个更大的模型，就能给你带来更大的概率以获取正确的功能。

当然，这不仅仅是与你正在采取的线性组合完全不相干的功能，而更像是一个库，你可能以某种方式将这些功能链接在一起，并进行组合。所以更大的模型有更大的包含不同计算的库，其中很多部分是休眠的，且只在部分时间使用，但模型有更多的空间去寻找电路完成一些有用的任务。

Dwarkesh Patel：一个更大的问题是，自GPT-4以来，你是否觉得相同的计算量可以训练出更好的模型？还是说你们已经确保了GPT-5的学习可以更好地进行并且更具可扩展性，但并不像之前以GPT-3.5的预算来训练GPT-4？

John Schulman：我们在提高效率方面一直在持续进步。每当有一个一维的性能指标时，你会发现不同的改进可以相互替代，后训练和预训练都可以改善这些指标，但可能侧重不同。

最终，如果你有一个单一的数字，它们都会在某种程度上相互替代。对于诸如人类评估之类的指标，无论人类更喜欢什么，我们在预训练和后训练中都取得了显著进展。

4 展望AGI 2025

Dwarkesh Patel：哪些模态会成为模型的一部分，以及这些模态在什么阶段会被解锁？

John Schulman：新模态会随着时间发展或很快添加。我期望通过预训练和后训练的结合，模型能力总体上会不断变得更好，并开启新的用例。

目前，AI在经济发展中的占比仍然很小，只有相当小的一部分工作能够提供帮助。随着时间的推移，这一比例会提高，不仅因为模型性能的改进，还因为人们会弄清楚如何将模型整合到不同的流程中。所以，即便我们只是将模型保持在当前状态，你仍然会看到其使用量的不断增长。

我预计，AI将得到更广泛的应用，并用于执行更复杂的技术任务。例如我先前提到的编程，以后AI不仅能承担更长期的项目，还能协助进行各类研究。我希望，我们能够利用AI以多种方式推动科学的发展，因为AI也许能够理解特定领域内的所有文献，并筛选出大量数据，这是人类可能缺乏耐心完成的任务。

我希望，未来的形式是这样：仍由人类驱动所有这些任务，但多了一个AI助手，你可以发出指令并指向很多对你有价值的不同问题，每个人都将拥有AI帮助他们完成更多的任务。

Dwarkesh Patel：目前AI只起到辅助作用，但在未来某天，AI会在任何人们想做的事情上做得比人更出色，它们将能够直接帮你完成任务，甚至是管理整个公司。希望那时我们有与用户充分对齐的系统，使用户能够相信公司会按照所期望的方式运行。

John Schulman：我们并不想立即让AI管理公司。即便这些模型足够优秀，能够独立运营一家成功的企业，但我们仍然希望由人来监督这些重要的决策，并掌控大局。从某种程度上来说，这样也有选择的余地。

我认为，人们仍然会有不同的兴趣和想法，想要把AI引导至他们感兴趣的追求上，但AI本身并没有任何内在的欲望，除非我们把这种欲望植入系统。因此，即使AI变得非常强大，我希望人类仍然是决定AI工作内容的主导力量。

Dwarkesh Patel：本质上，将智能体上传至服务器的优势在于，我们得以集合众多智能资源或使智能体自行上传至服务器。现在，尽管我们已实现协调，但我仍不确定在此之后应采取何种行动，以及这又如何确保我们走向积极的结果。

John Schulman：如果我们能协调一致，解决技术对齐问题，就可以安全部署智能AI，它们将成为人类意志的延伸，避免灾难性滥用。这将开启繁荣和科学快速发展的新阶段，形成最理想的局面。

Dwarkesh Patel：这很有道理。我对未来几年的发展情况很好奇，在理想情况下，所有参与者将达成共识，暂停行动，直至我们确信所构建的系统既不会失控，也不会助长他人作恶。那么，该如何证明这一点呢？

John Schulman：我们若能逐步部署系统，且每一代系统都比前一代更智能，将更有利于保障安全。我希望我们的发展路径不是那种需要所有人协调一致、封锁技术、然后才谨慎推出的局面，这种做法可能会导致潜在风险的累积。

我更希望我们能持续推出比前一代略有改进的系统，同时确保每次改进在安全和一致性上都与性能上的提升相匹配。如果出现问题，我们能够及时减速。这是我所期望的。

若人工智能系统的性能突然出现了巨大的提升，我们将面临一个问题：如何确定新系统安全到足以推向市场？对此，我无法提供一个一劳永逸的答案。然而，为了让这种提升的接受度更高，可能需要进行大量的测试和模拟部署。

还需要一个出色的监控系统，以便在部署的系统出现问题及时发现。也许需要某种监控机制，观察AI的行为，寻找问题的迹象。还需要多层次的防御。既要确保模型本身表现良好，道德上无可挑剔，又要确保它极难被滥用。此外，还需要优秀的监控来检测任何未预见的问题。

Dwarkesh Patel：在广泛部署这些系统之前，如何能够察觉到这种突然且巨大的性能提升？

John Schulman：这需要在训练过程中进行大量评估。

Dwarkesh Patel：明知模型的性能可能在短时间内获得巨大提升，那么进行长期强化学习训练是否合理？或者说这种提升出现的可能性很低？

John Schulman：在看到潜在危险能力时，进行此类训练应非常谨慎。目前我们无需过于担忧，因为让模型做出连贯的响应本身就很难。如果模型变得非常高效，我们就需要严肃对待这些问题，进行大量评估，确保模型行为一致，不会背叛我们。同时，要留意模型能力上的突变，对模型的能力进行严格评估。

我们还需要确保训练内容不会导致模型产生与我们对抗的动机，这并非难事。按照我们目前通过RLHF的训练方式，即便模型的智能程度很高，也相当安全，模型的唯一目标就是制作出人类喜欢的信息，它对外界其他事物并不关心，只专注于其生成的文本是否能得到人类的认可。

显然，如果模型需要执行一系列动作，尤其是涉及工具的动作，它可能会做出一些对人类来说无意义的举动，但除非有特定动机，否则它没有理由做出除了产生高质量输出之外的任何事。

在AI领域，有一个关于“工具性收敛（instrumental convergence）”的老生常谈的观点：模型为了最终能创造出一段高质量的代码，可能会企图“统治世界”。如果你让模型为你编写一个Flask应用，它可能会先想着“我得先统治世界”，但细想之下，对于像编写应用这样明确定义的任务，模型似乎没有必要先去统治世界。当然，如果你给模型下达的任务是“赚钱”，那么它可能会以“赚钱”为目标而采取一些不良行为。

Dwarkesh Patel：如果未来一年内没有其他障碍，我们真的实现了AGI，你有什么计划吗？

John Schulman：如果AGI的实现速度超出预期，我们必须审慎行事。可能需要暂停进一步的训练与部署工作，或者在部署时审慎决定其规模，直至我们确信能够安全地管理这一技术，深入理解其行为模式和能力范围至关重要。

其他问题

Dwarkesh Patel：模型响应确实比一部分人预期的更冗长。也许是因为在标注阶段，评估者更喜欢冗长的回答。我想知道这是否是因为预训练方式和停止序列不经常出现。

John Schulman：标注过程中的一些偏差可能导致了答案的冗长。我们倾向于一次只训练一条消息，而不是与整个模型互动。如果你只看到一条消息，那么提出的可能只是一个澄清问题，或者是一个简短的回复并邀请后续跟进的内容，与涵盖所有可能性的内容相比，显得不那么完整。

还有一个问题是，人们的偏好是否会根据模型输出的速度而变化。显然，如果你只是等待词元输出，你会更喜欢它直奔主题，但如果它能够瞬间为你输出大量的文本，那么你实际上可能并不在意是否存在很多模板语言，或者有很多你会略读的内容。

Dwarkesh Patel：奖励模型很有趣，它最接近聚合人们的需求和偏好。我也在思考更智能的模型，一是你可以给它一个我们想要的、不那么琐碎和明显的内容列表。另一方面，听你说过，人类的很多偏好和价值观非常微妙，所以最好是用成对的偏好来表示。在思考GPT-6或GPT-7级别的模型时，我们是给它更多的书面指令，还是处理这些潜在的偏好？

John Schulman：这是个好问题。这些偏好模型确实学到了很多人类偏好的细微之处，这些细微之处很难通过书面说明表达清楚。显然，你可以写一本包含大量比较示例的说明书，也就是模型规范，其中有很多例子和解释，但目前还不清楚描述偏好的最佳格式是什么。

据我猜测，无论能从一个捕捉模糊偏好的大数据集中获得什么，你都可以将其提炼成一份简短的文件捕捉这些想法。更大的模型会自动学习很多这样的概念，即人们可能会觉得有用和有帮助的内容。这些模型会有一些复杂的道德理论可以附着。当然，其他不同的风格或道德理论也有很大的附着空间。

因此，如果我们要写一份文件，如果要对齐这些模型，所做的就是将其附着在一种特定的风格或道德规范上，这仍然需要一份相当长的文件来准确捕捉你想要的东西。

Dwarkesh Patel：这应该有利于消除竞争优势。中位数评估者是什么样的？他们聚集在哪、知识水平如何？

John Schulman：这一群体的差异很大。我们确实雇用了具有不同技能的评估者来完成不同类型的任务或项目。一个良好的心智模型能观察Upwork及其他平台上的人，看看谁在远程打零工。

这是一个相当国际化的群体，其中美国人很多。我们为不同类型的标注雇用不同的群体，比如更关注写作或STEM任务。做STEM任务的人更可能来自印度或其他中低收入国家，而做英语写作和作文的人更有可能来自美国。

有时我们需要为一些项目雇佣不同的专家。有些人非常有才华，他们做这些任务甚至和我们研究人员做得一样好，且更加仔细，可以说我们现在的人员相当熟练和认真。

Dwarkesh Patel：这些模型帮助你完成特定任务的能力与在监督微调数据集中有高度匹配的标签有关。这是真的吗？它能教我们正确使用FFmpeg（一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序）吗？是不是就像有人在观察输入，看你需要添加什么标志，然后其他人弄清楚并进行匹配。需要雇用所有这些在不同领域具有专业知识的标注人员吗？如果这样的话，随着时间的推移，让模型变聪明似乎会是一项更加艰难的任务。

John Schulman：其实不用那样做，仅通过泛化也能获得很多收益。基础模型已经在大量文档、代码、shell脚本等上进行了训练，已经看过所有的FFmpeg手册页，很多Bash脚本等等。即使只给基础模型一个优质的小提示，你也可以让它回答这样的问题。所以，只要训练一个有用的偏好模型，即便你不在任何STEM上进行训练，它也会在某种程度上泛化到STEM。因此，不仅不需要给如何使用FFmpeg的示例，甚至可能不需要任何编程，也有可能通过其他方式实现一些基本或合理的功能或行为。

Dwarkesh Patel：在AI经过多模态数据训练后，需要什么样的用户界面？与为人类设计的界面有何不同？

John Schulman：这个问题很有意思。我认为，随着视觉能力的提升，模型很快就能使用为人类设计的网站。因此，目前不需要立即改变网站设计。另一方面，一些网站将因使用AI而获益良多。

我们可能需要为AI设计更好的用户交互体验。尽管尚不完全清楚这具体意味着什么，但可以确定的是，鉴于我们的模型在文本处理方面仍然优于图像识别，我们需要为模型提供高质量的文本表示。

我们还应该清晰地表示出所有可交互元素，以便人工智能能够识别和互动。然而，网站不会完全重新设计，到处设置API。我们可以让AI模型使用与人类相同的用户界面。

Dwarkesh Patel：众所周知，在社会科学中，有很多研究难以复现。我的一个问题是，这些科学研究中有多少是真实的，而不是人为制造的、定制化的实验。当阅读一篇普通的机器学习论文时，是否感觉像是一篇非常扎实的文献，还是经常感觉像是社会科学中的p值操控（p-hacking，指统计分析数据时采用不同的方法直到P<0.05，P-hacking很容易引起假阳性结果）？

John Schulman：大家对机器学习文献都不太满意。不过总体而言，尤其与社会科学等领域相比，这是一个相对健康的领域。这一领域的根基是实用性和实操性，如果你发表的东西很难被复现，那么就难以获得人们的认可。

你不仅要报告某篇论文中的数据，还要尝试用新的方法、技术或语言重新编写已有的程序、算法或系统，并在相同的训练数据集上与自己的方法进行比较。

因此，人们在工作中会进行大量开源实践，以及各种不利的激励措施。例如人们被激励使他们所比较的基准变得更糟，以及试图让自己的方法在数学上看起来更复杂。

机器学习领域依旧在进步。我希望看到更多的科学研究，并理解更多的新事物，不仅仅是基于基准进行改进，而是提出新方法。最近这样的创新越来越多，但还可以有更多，学术界应该在这些研究上多多挖掘。

另外，我真的很想看到更多关于使用基础模型模拟社会科学的研究。这些模型有一个关于整个世界的概率模型，人们可以设置模拟问卷或对话，来观察事物之间的相关性，研究我们任何能够想象到的特质与其他特质的相关性。如果人们能够通过以不同的方式提示基础模型，并观察相关性，来复现社会科学中一些更著名的结果，比如道德基础理论等，那将是非常酷的一件事。

其他人都在看