OpenAI的外星人：o1模型引发的AI新纪元

步子哥

于 2024-09-27 23:00:00 发布

阅读量794

点赞数 17

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_36829761/article/details/142599900

版权

在2024年的科技圈，有一位“外星人”成了焦点——不是科幻电影中的那种，而是OpenAI推出的o1模型。这个模型以超凡的推理能力震撼了整个AI社区，甚至有网友打趣说，OpenAI的“o1”名字是从美国对“外星人杰出能力”的O-1签证中借鉴来的。

去年11月，Q项目首次被媒体曝光时，整个技术圈为之沸腾。传闻OpenAI的科学家们写信警告Q可能成为一种危险的人工智能，甚至威胁到人类生存。这引发了全球的猜测，大家都在问：“Ilya到底看到了什么？”

经过长时间的沉寂，Q*项目在2024年被重新包装为“草莓（Strawberry）”，终于在9月初揭开了神秘面纱，推出了两个版本的o1模型：o1-preview和o1-mini。前者是一个即将发布的早期版本，而后者则是一个速度更快、成本更低但性能依然惊人的“小型”模型。

众所周知，传统大语言模型（LLM）主要通过预测下一个词来生成文本。它们能通过识别大量的文本模式来完成任务。但在面对复杂推理问题时，它们有时会“短路”。o1突破的关键在于强化学习（Reinforcement Learning, RL）。

以数学问题为例，假设你给模型输入一个复杂的算式：“2+5+4+5-12+7-5=”。传统模型可能无法直接从训练数据中找到这个公式的答案。但如果你要求o1“逐步思考”，它会像解数学题一样，一步一步分解问题：

通过这种方式，o1不仅解决了问题，还展示了其强大的**思维链（Chain of Thought）**推理能力。

这种思维链推理能力在编程任务中同样适用。OpenAI官方给出的一个例子是：编写一个Bash脚本，接受以字符串形式表示的矩阵（如“[1,2],[3,4],[5,6]”），并输出其转置矩阵。这个任务对于普通人类程序员可能需要30分钟，但o1模型的解决方案如下：

在整个过程中，o1模型会逐步思考，将问题分解为多个小问题，然后依次解决。这个过程虽然花费了较长时间，但结果非常精确。

在早期，AI大多依赖模仿学习（Imitation Learning）。这种方法通过让模型模仿人类专家的行为来学习。然而，模仿学习有一个大问题：它只教AI如何在“理想情况下”行事，而没有教它如何应对意外情况。

一个经典的例子是：斯坦福大学的研究者曾试图用模仿学习教AI玩一款叫做SuperTuxKart的卡丁车游戏。AI可以在赛道中央保持较好的表现，直到它稍微偏离轨道，之后的错误便像雪球一样越滚越大，最终彻底偏离赛道。这是因为AI从未见过专家如何从错误中恢复。

与模仿学习不同，强化学习关注最终结果并根据其质量给予反馈。即使AI在推理过程中输出了几个错误的token，只要最终得出正确答案，它仍然会得到正面反馈。OpenAI通过强化学习，训练o1模型在长链推理中更有效地学习和改进。

虽然o1在数学和编程推理方面表现卓越，但在应对复杂的现实世界问题时，仍然面临挑战。一个例子是：城市导航问题。

假设有一个城市有七条南北向的街道和七条东西向的街道，部分街道由于封闭无法通过。问题是：如何从第二街和B街到第四街和B街？o1给出的路线完全错了。

这不仅仅是因为o1无法处理二维空间问题，还因为它缺乏处理复杂现实世界信息的概念性思维。

另一个o1模型的“滑铁卢”是国际象棋问题。给定以下棋局：

问题是：黑方的最佳走法是什么？

GPT-4o很快给出了正确答案：hxg6，即用兵吃掉白方皇后。然而，o1-preview的回答则令人啼笑皆非。它首先表示“g7的兵可以吃掉g6的皇后”，这是错误的，因为兵只能斜向吃子。接着，它推荐了另一个不合法的走法——gxh6。

这表明，o1在象棋领域的表现甚至不如GPT-4o。这是因为，GPT-4o利用了大量的象棋对局数据进行模式匹配，而o1试图通过分析棋局状态来推理，结果却适得其反。

现实世界中的问题往往比纯粹的数学或编程问题复杂得多。人类拥有几十年的知识积累，能够在面对复杂问题时高效推理，而目前的AI模型还无法做到这一点。尽管o1模型在解决封闭的推理问题上表现得非常出色，但它距离人类的通用智能仍有很长的路要走。

目前，公开可用的大语言模型上下文窗口最多为200万token，而人类在一生中接触的信息远远超过这个数量。即便如此，问题的复杂性有时比上下文窗口的限制更具挑战性。即使在拥有128,000 token的上下文窗口时，o1仍然会在长链推理中被复杂性淹没。

总的来说，尽管o1模型展示了令人印象深刻的推理能力，它仍然无法应对现实世界中的复杂性。我们不能将AI在固定推理问题上的成功与解决现实世界问题的能力混为一谈。AI距离真正的**通用智能（AGI）**还有很长的路要走。

关注