独家｜OpenAI超级对齐负责人Jan Leike：如何破解对齐难题？用可扩展监督

智源社区

于 2023-10-16 12:30:38 发布

阅读量241

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/133874955

版权

导读

今年早些时候，OpenAI宣布成立了一支专注于超级对齐的新团队，由Jan Leike和IIya Sutskever领导，超级对齐旨在构建一个能够与人类水平相媲美的自动对齐研究器。其目标是尽可能地将与对齐相关的工作交由自动系统完成。

其中一个重要手段就是可扩展监督（Scalable Oversight），即在确保模型能力超过人类水平后，仍旧能够与人类期望保持一致、持续地进行改进和学习。可扩展监督的重点是如何向模型持续提供可靠的监督，这种监督可以通过标签、奖励信号或批评等各种形式呈现。随着AI不断进步，RLHF可能会逐渐失效，人类评估模型的能力遭遇瓶颈。如何判断可扩展监督正在发挥作用？可扩展监督的目标是什么？在近期由青源会主办的「超级对齐」闭门研讨会上，OpenAI超级对齐负责人Jan Leike讲解了如何利用可扩展监督来解决对齐难题。

Jan Leike

OpenAI 超级对齐团队负责人，研究方向为强化学习，大语言模型的对齐engineering，通用人工智能等。2016 年加入谷歌 DeepMind 团队从事人类反馈强化学习（RLHF）相关研究，现领导 OpenAI 对齐团队，旨在设计高性能、可扩展、通用的、符合人类意图的机器学习算法，使用人类反馈训练人工智能，训练人工智能系统协助人类评估，训练人工智能系统进行对齐研究。

关于对齐问题，我已经思考10年之久。在OpenAI，我与 Ilya Sutskever 共同领导了超级对齐团队，并深度参与了一些项目，包括RLHF原始论文、InstructGPT、ChatGPT 和 GPT-4 的对齐项目。目前超级对齐的目标是弄清楚如何对齐超级智能，因此系统必须比人类更聪明。我们希望在四年内，利用OpenAI 20%的算力解决超级对齐的问题。