Mark Chen:在通用人工智能的征程上,我们正在经历一场前所未有的加速。
作者 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
兜兜转转,OpenAI 今年的三场开发者日(Dev Day),终于来到了最后的亚洲站(新加坡)。与旧金山和伦敦的前两场不同,这次开发者日的亚洲面孔明显增多,还有 Sora 的专属展台,让人近距离体验 OAI 今年的最后亿次画饼。
会议开始前,OpenAI 还发布了 GPT-4 的最新版本(gpt-4-0-2024-11-20),主要增强了写作能力,产出的内容更自然、更易读。这个版本在 LMSYS 大模型竞技场中的表现甚至超过了 o1,登上榜首。
但目前的主角依旧是 o1,比如之前那个用 o1-mini 控制无人机的演示,在新加坡又来了一遍(欢迎回顾欧洲站:《Sam Altman 最新万字访谈自曝:大模型必定贬值,但不投资反而是错?》)。
视频时长一分半,50 秒左右的时候 o1 编好了无人机控制程序,然后起飞。
随后还公布了 o1 即将支持的新功能:函数调用、开发者消息、结构化输出和图片理解。特别引人注目的是实时语音交互系统,支持多语言混合输入输出,效果远超 Whisper 模型。更重要的是,实时语音 API 的输出部分价格已降至原来的 20%,这让 AI 在客服等商业场景的应用更具性价比。
而本文带来的是现场的另一个重磅环节:和 OpenAI 的一线大咖炉边谈话。这次新加坡站的主角选择了亚裔面孔的 Mark Chen(图左),和他对话的则是整场开发者日主会场的主持人:OpenAl 平台产品负责人 Olivier Godement(图右)。
大部分人最早认识 Mark Chen 还是在 GPT-4o 当初那场惊艳天下的春季演示中,而后他的存在感愈来愈高,并随着 OpenAI 前任 CTO Mura Mirati 的离职——高层地震,从此成为了 OpenAI 的研究高级副总裁(SVP of Research)。本次对话中,他也分享了不少精彩观点:
AGI 进展:“从高中数学到博士问题,只需两年时间。就在两年前,AI 的前沿任务还停留在解决高中数学问题,而现在已经能够挑战最难的博士级问题。”
o1 的本质性突破:“传统模型必须立即响应,容易被误导。而具备推理能力的模型可以像人类一样思考和反思,这让它在面对安全挑战时更加稳健。”
预训练的新范式:“虽然业界普遍认为大型基础模型在预训练上遇到瓶颈,但我们现在有了两种更丰富的范式。尤其是测试时扩展范式,这个方向正在蓬勃发展。”
模型评估的新思维:“当模型在所有基准测试中都达到顶峰时,评估标准就会转向对最终用户的实际价值贡献。AGI 的发展本质上是一个不断对话的过程——每当我们发布一个在现有基准测试上表现出色的模型时,总会有人指出它与自己心目中的 AGI 还有差距。这恰恰促使了研究者提出新的评估标准,推动我们开发新一代模型。”
未来十年展望:“十年后,我们将看到一个人在一周内就能创建产生巨大价值的项目。个人创造影响力的能力将达到前所未有的水平。这种颠覆性的提升最先会出现在软件领域。”
以下是两人的对话内容,经 CSDN 精编处理:
“刁钻”的用户无意间推动了 AGI 的发展
主持人:(第一个问题)最近有什么 AI 研究成果让你觉得“科幻成真了”吗?
Mark Chen:好问题,一上来就这么劲爆。其实我是从图像生成领域进入 AI 研究的。视觉相关的突破总是特别直观,很有说服力,你不用读很多文字就能直接看到效果。所以最近这波图像生成、视频生成技术的进步真的让我很震撼。
主持人:对我来说则是语音对话系统。第一次和 AI 进行自然对话时,虽然只有几分钟,但它表现出的创造力和自然度让我印象深刻,这是我最近几个月最惊喜的体验。
Mark Chen:说到这个,我还有另一种感受。我以前是竞赛程序员,所以现在看着这些模型慢慢赶上甚至超越了我的水平,这种体验也相当震撼。
主持人:来个“简单”的问题,我们离 AGI(通用人工智能)还有多远?
Mark Chen:这个问题其实很难回答,因为大家对 AGI 的定义都不一样。从经济角度看,我们的产品已经在创造实际价值了。OpenAI 显然是最有价值的科技公司之一,现在就为用户创造着数十亿美元的价值。
从另一个角度看,就是在衡量智能或完成通用任务的基准测试中的表现。有意思的是,就在两年前,AI 的前沿任务还停留在解决高中数学题的水平,现在已经能挑战最难的博士级问题了。我认为,我们已经进入了一个新阶段,这些模型能够解决人类有史以来最具挑战性的考试题目。
主持人:当模型能解决博士级问题后,下一个评估标准会是什么?
Mark Chen:这是个关键问题。我认为未来将更注重实用价值。我们开发产品的目标是创造价值,当模型在所有基准测试中都达到顶峰时,关键指标就会转向对最终用户的实际价值贡献。说到这里,这些年来你对基准测试与实际应用之间关系的理解有什么变化?
主持人:你说的是基准测试的量化指标与实际使用时的定性体验之间的关系吗?
Mark Chen:这两者实际上高度相关。AGI 的发展本质上是一个不断对话的过程——每当我们发布一个在现有基准测试上表现出色的模型时,总会有人指出它与自己心目中的 AGI 还有差距。这恰恰促使了研究者提出新的评估标准,推动我们开发新一代模型。这是一个循环迭代的过程,与实际应用体验密切相关。
主持人:在安全性方面,过去一年最重要的突破是什么?
Mark Chen:o1 可能是去年最显著的安全进展之一。这个说法可能出人意料,因为人们常把 o1 视为能力的提升,但它在本质上也是安全性的突破。以模型越界为例,传统 GPT 系统需要立即响应,容易受到误导。而具备推理能力的模型可以思考输入是否试图诱导它做出不当行为。这种思考和反思的机制显著提升了模型面对安全挑战时的稳健性。
事实上,这正是我们预期的结果。推理能力的应用范围很广,不局限于数学和编程。这种能力具有高度的迁移性,无论是编程、谈判还是复杂博弈,都能用到相同的推理框架。
主持人:在安全性基准测试方面,你们是否遇到了类似的挑战?
Mark Chen:安全性测试采用了对抗性攻击的框架,这种攻击手段相当强大。我们在这方面还有很长的路要走,不能说我们的模型已经完全稳健,这个领域还有大量亟待改进的任务。
Scaling Law “一生二极”
主持人:从目前的第一级 AI 到第五级的超级 AI,你认为关键推动因素是什么?也许你甚至可以先解释一下,到底什么算第一级 AI。
Mark Chen:OpenAI 最近几个月提出了一个 AGI 分级框架,从基础推理系统开始,发展到更具主动性的系统,再到能在现实世界采取行动的模型,最终达到完全自主的系统。我认为核心在于稳健性和推理能力。
现在的智能体系统之所以不够可靠,主要是因为其稳定性不足。这也是我们在推理能力上投入如此之多的原因,我们认为推理能力将是提升可靠性和稳健性的关键。
主持人:我们是否已经达到了第二级?或者说正在接近?
Mark Chen:我们正在从第一级向第二级过渡,朝着更具主动性的系统迈进。目前的智能体系统仍需要人类监督,但我们正在逐步放宽这种限制,让模型更加自主,同时也在逐步建立对 AI 系统的信任。
主持人:让我们谈谈合成数据。首先请介绍一下什么是合成数据,以及在模型训练中有什么最佳实践?
Mark Chen:这个问题很专业。合成数据是由模型生成而非人工产生的数据。它在数据稀缺或质量不高的场景中特别有价值。以 DALLE-3 的训练为例,图像生成模型面临的一个核心问题是网络上的图片描述往往与图像内容关联度不高。比如一张热气球的照片,配文可能不是描述热气球本身,而是“这是我最棒的假期”这样的评论。在这种情况下,合成数据就显示出优势。我们可以训练一个能为图像生成高质量描述的模型,用它重新为整个数据集生成描述文本。实践证明这种方法非常有效,这种思路也适用于其他存在数据质量问题的领域。
主持人:我再问个相关的问题——AI 是否遇到了瓶颈?
Mark Chen:这个问题很切题。最近确实有文章提到许多大型基础模型实验室在预训练上遇到了瓶颈。Ilya 也明确表示我们可能在预训练方面遇到了一些障碍。但从内部来看,我们现在有两种范式,这比过去的环境更加丰富。一是我们探索的测试时扩展范式,这个方向正在蓬勃发展。在推理模型的扩展上,我并没有看到同样的障碍。
我从 GPT-1 时代就在 OpenAI 工作。每一次从一代升级到下一代,无论是从一代到二代,二代到三代,还是三代到四代,都会遇到技术挑战,通常还不止一个。即使在 GPT-4 之后的阶段,我们也很清楚需要解决哪些具体的技术难题。这些都是非常明确的问题,没有什么是我们完全没有头绪的。
主持人:这很有道理。
Mark Chen:在 OpenAI 内部,我们认为推理范式已经达到了一定的成熟度。它已经找到了一些产品市场契合点,但仍有很大的发展空间。这一点在我们开发的应用中也能看到。
主持人:OpenAI 是否仍像早期那样重视研究和安全?
Mark Chen:毋庸置疑。作为研究团队的负责人,我管理着大量研究项目。我经常思考如何在探索性研究和短期目标之间分配资源和算力。原则上,我们更多地倾向于探索性研究。
我们的风格与其他实验室有所不同。其他大型基础模型实验室因为拥有大量优秀研究人员,可以让他们自由选择研究方向。而我们团队规模较小,需要更有针对性。我们会选择一些我们高度确信的探索性方向,然后在这些领域内给研究人员充分的自由。这样既能保持方向性,又能充分发挥小规模团队的优势,避免漫无目的的探索。
模型缺少的是系统一和系统二之间的桥梁
主持人:你个人最常用的模型功能是什么?同时,看到其他人创造性地使用哪些功能最让你兴奋?
Mark Chen:最近我个人很喜欢用我们的搜索模型。我不太喜欢传统的信息搜索过程,需要筛选很多链接,而且现在的网页充斥着广告和无关内容。所以我经常用它来学习,特别是当我遇到不熟悉的主题时。ChatGPT 是我的默认工具。作为一名研究人员,在担任管理职务后,我需要学习更多关于业务和 OpenAI 不同部门的知识。我发现 ChatGPT 是一个很好的学习资源。
主持人:最近几周我最惊喜的使用体验是与 o1 进行头脑风暴。我花了几周时间重新适应它的能力。与 GPT-4 相比,o1 在思考深度上有了质的飞跃。它终于成为了一个真正的对手,能够深入参与创意讨论,而不是仅仅做出评论。最近几周我在做产品战略规划,它表现得就像一个真实的对话者,让人感觉在与实体交流。确实令人印象深刻。
Mark Chen:是的,o1 在战略规划方面的表现确实很出色。
主持人:有这样一个既理解你,又能深入参与的思维伙伴,体验确实很特别。
有观众给了我一个有趣的问题:你会选择让别人看你的搜索记录,还是战略规划记录?[笑声]
Mark Chen:搜索记录是绝对不能公开的。
主持人:确实,那就完全是私人的了。我们继续谈谈 o1。你们是如何想到关于推理的直觉判断的?
Mark Chen:这是一个集体努力的成果,而且我们已经进行了很长时间。记得我之前提到过关于重点探索性投入的观点吗?这就是两年多前的一个重点方向。当时我们意识到现有模型存在某些不足。它们看起来非常聪明,但总觉得与真正的通用人工智能还有差距。我们认为问题在于它们必须立即响应。
想想人类的思维过程,如果要求立即回答,往往得不到最好的答案。人类需要根据问题的难度调整思考时间,有时会说“让我想想”,或“明天再回复你,我需要研究一下”。
我们认为模型缺少的是系统一和系统二之间的桥梁。快速思维已经具备,知识储备也有了,但缺乏慢速思维。这就是我们的核心假设。我们其实尝试了多种方案来解决这个核心问题。看到 o1 的成功令人欣慰。最初只是一群探索性研究的科学家,获得了一些初步成果。一旦看到希望,我们就开始全面布局:组建研究团队、扩大项目规模、开展大规模数据生成、提升基础设施。最终实现了最初的愿景。
主持人:获得第一个突破性进展花了多长时间?
Mark Chen:这是研究中最困难的部分。特别是在开始阶段,当你在做类似登月计划这样的项目时,失败是常态。关键是要保护这些研究人员。如果你坚信一个方向,成功只是时间问题。要让研究人员尝试各种不同的方法。确实有过三四个月感觉毫无进展的时期。但最终总会有人取得重大突破,这就给了我们继续投入资源、深入推进的动力——这就是管理大型研究项目组合的乐趣所在。
梦回十七世纪
主持人:O1 发布几个月以来,从用户体验中你们有什么重要发现或收获?
Mark Chen:我们已经与许多外部合作伙伴进行了交流。一个有趣的发现是,他们认为这比传统的微调方法效果更好。模型在处理问题时不那么容易出错,而且应用范围远超出了我们最初聚焦的数学和科学领域。
比如在医疗领域,我们看到合作伙伴尝试输入一系列症状和非症状信息,要求模型推断出符合这些特征的疾病。模型表现出了明显的优势,因为这个过程涉及形成假设、验证,然后再形成新的假设。我们看到模型在一些我们没有特别关注的领域也发挥出了优势。
主持人:这确实出乎意料。
Mark Chen:我们都知道模型在数学、科学、编程这些重点测试领域表现出色,但看到它在法律推理等看似差异很大的领域也表现优秀,确实令人惊喜。相信还有很多领域的潜力我们尚未探索。
主持人:你认为我们多快能看到 o 系列模型在客户定制方面的应用?
Mark Chen:有趣的是,目前大多数模型定制都比较表层,主要集中在风格、语气、格式等方面。o1 提供了一种全新的定制方向,更像是在特定任务上深度专精的专家模型。我预计基于 o1 的新模型构建的应用场景会有很大不同。这个过程可能只需要一两个月。
主持人:对于目前将 AI 作为核心功能的创业公司来说,最大的挑战是什么?
Mark Chen:现在正是在 AI 基础模型上创业的好时机。作为基础模型开发商,当我们专注于通用性时,OpenAI 不可能深入每个垂直领域。这就为将模型定制到特定领域的创业者留下了巨大空间。
主持人:现在我们已经看到了丰富的创业生态,各种团队都在 OpenAI 的基础上开发不同类型的应用。我很好奇你对这个问题的看法?
Mark Chen:创业公司成功的关键往往在于掌握了市场尚未发现的秘密。在 AI 领域,你实际上是在一个不断变化的技术栈上构建产品。你无法预测下一个模型什么时候出现,也无法预知会解锁什么新能力。表现最好的创业公司通常都对某个方向有独到的直觉,他们在某些刚刚可行的边缘场景上构建产品。这有点像做研究。当下一代模型如 o2 出现时,它们解锁的新功能往往能让这些产品更上一层楼。说起来容易做起来难,但这确实是构建优质产品的重要经验。
主持人:如果你能穿越到十年后,最希望看到什么样的 AI 突破?
Mark Chen:今天在 OpenAI 的大多数人都认为,十年后我们将实现相当强大的 AGI。这意味着潜力的完全释放。可以想象一个人在一周内创建一个能产生巨大价值的大型创业项目。个人创造影响力的能力将达到前所未有的水平。我认为这种颠覆性的提升最先会出现在软件领域。
主持人:我也很认同个人能在短时间内产生巨大影响的观点。不过我会把视角扩展到商业之外。我喜欢 17 世纪科学家独立研究并推动物理学发展的那种氛围。我在想,在 AI 的强大辅助下,我们是否能重现那个时代的场景:独自一人就能在医学、物理学或计算机科学领域做出重大发现,那将是令人震撼的突破。
【编者的吐槽】其实 17 世纪大多数科学家都不是独立研究的,例如牛顿在剑桥三一学院有完整的研究环境,波义耳拥有自己的实验室和助手团队,伽利略也有学生和支持者。“独立科学家”这种浪漫想象更多来自于后世的艺术加工。
推荐阅读:
▶ C++ 之父领衔,系统软件专家齐聚,2024 全球 C++ 及系统软件技术大会日程抢先看!
▶ 各路大佬纷纷给 AGI 立下“最后期限”,27 岁创始人已经给 AI 准备好「人类最终测试」!
▶ 技术专家和神父在梵蒂冈研讨 AI!MIT 教授当场放教皇深伪视频,现场炸锅