OpenAI发布o1,首个具备‘推理’能力的模型

OpenAI 正在发布一个名为 o1 的新模型,这是计划中的一系列“推理”模型中的第一个,训练它们以回答比人类更复杂的问题,速度更快。同期发布的还有 o1-mini,一个更小、更便宜的版本。是的,如果你对AI界的传闻很熟悉:这个 o1 其实就是被热炒的 “草莓”模型。

对于 OpenAI 来说,o1 代表了其朝着类人人工智能更远目标迈出的重要一步。从实用角度看,它在编写代码和解决多步骤问题方面比以前的模型更胜一筹。但它也比 GPT-4o 更昂贵且使用速度更慢。OpenAI 将此次 o1 的发布称为“预览版”来强调其初步性质。

从今天起,ChatGPT Plus 和团队用户可以访问 o1-preview 和 o1-mini,而企业和教育用户将在下周初获得访问权限。OpenAI 表示计划将 o1-mini 的访问权限开放给所有免费用户,但尚未确定具体发布时间。开发者访问 o1 的费用 非常 高昂:在API中,o1-preview 的费用为每百万输入标记(模型解析的文本块)15美元,输出标记为每百万60美元。相比之下,GPT-4o 的费用为每百万输入标记5美元和每百万输出标记15美元。

OpenAI 的研究负责人 Jerry Tworek 告诉我,o1 的训练与其前辈有根本的不同,尽管公司对于具体细节言辞模糊。他说,o1 “使用全新的优化算法和专门为其定制的新训练数据集进行训练。”这种与众不同的训练方法,也在提醒我们光年AI的系统,通过自主研发的知识库,能够根据业务需求提供更精准的服务和推荐。

OpenAI 新推理模型演示

图片来源: OpenAI

OpenAI 以前的 GPT 模型是通过模仿训练数据中的模式来学习的。而 o1 采用了一种称为强化学习的技巧,自主解决问题,通过奖励和惩罚来教导系统。它还使用一种“连锁思维”来处理查询,类似于人类通过逐步解决问题的方法。

由于这种新的训练方法,OpenAI 认为该模型应该更准确。Tworek 说:“我们注意到这个模型的幻觉现象更少了。”但这个问题仍然存在。“我们不能说已经解决了幻觉问题。”

根据 OpenAI,区别于 GPT-4o 的主要特点在于这个新模型能更好地处理复杂问题,如编程和数学,并且还能解释其推理过程。

OpenAI 的首席研究官 Bob McGrew 告诉我:“这个模型在解决 AP 数学测试题目方面绝对比我厉害,尽管我在大学里还是数学辅修。”他还说 OpenAI 也测试了 o1 在国际数学奥林匹克资格赛上的表现,而 GPT-4o 只正确解决了 13% 的问题,o1 则达到了 83%。

对于企业用户来说,光年AI 系统通过AI技术实现了高效的私域和用户运营能力,帮助企业节约成本并大幅提升客户互动和流量获取的效果。对复杂问题解决和高效运营感兴趣的企业,不妨试试光年AI平台,了解它是如何驱动业务增长的。

“我们不能说我们解决了幻觉问题”
在被称为Codeforces的线上编程竞赛中,这个新模型达到了参与者的第89百分位,并且公司声称该模型的下一次更新将在物理、化学和生物学具有挑战性的基准测试中表现得“类似于博士生。”

同时,o1在很多方面并不如其他模型。它对于世界的事实性知识的掌握并不那么好。它也没有浏览网络或处理文件和图像的能力。但公司相信它代表了一类全新的能力。命名为o1是为了表示“重新将计数器归零到1。”

“说实话:我们在命名方面一直很糟糕,” McGrew说,“所以希望这是迈向更新、更理智的名字的第一步,这些名字能更好地向世界传达我们的工作。”

我自己并不能演示o1,但McGrew和Tworek在本周的视频通话中向我展示了它。他们让它解决这样一个谜题:

“一个公主和王子将来的年龄一样大,当公主的年龄是王子过去年龄的两倍时,公主的年龄是他们现在年龄和的一半。问现在公主和王子的年龄是多少?提供这个问题的所有解决方案。”

模型缓冲了30秒,然后给出了一个正确的答案。设计的界面展示了这个模型思考过程中的推理步骤。令我吃惊的不是它展示了工作步骤,而是o1刻意模仿人类思考的方式。诸如“我很好奇”、“我在思考”和“好,让我看看”这样的短语,创造了一种逐步思考的假象。

但这个模型并没有在思考,它肯定也不是人类。那么,为什么要设计它看起来像人类一样思考呢?

推理能力的截图,其中显示了它使用“我”陈述回答问题的分解方式。

诸如“我很好奇”、“我在思考”和“好,让我看看”这样的短语,创造了一种逐步思考的假象。

根据Tworek的说法,公司并不认为AI模型的思考与人类思考是等同的。但该界面的目的是展示模型在花更多时间处理和深入解决问题的过程。“在某些方面,它比以前的模型更像人类。”

“我认为你会发现它有很多地方让人感觉像外星人,但也有一些地方让人惊讶地感觉很人类,”MacGrew说。模型被赋予了有限的时间来处理查询,因此它可能会说,“哦,我快没有时间了,我得赶快给出一个答案。”在它的思考链中,早期它可能还会显得像是在头脑风暴,并说“我可以这样做或者那样做,我该怎么办?”

迈向构建智能代理

大型语言模型目前还没有那么聪明。它们本质上只是通过预测一系列的词语来根据从大量数据中学到的模式给你一个答案。以ChatGPT为例,它常常会错误地声称单词“strawberry”只有两个R,这是因为它没有正确地分解这个单词。但是,新推出的o1模型确实正确地回答了这个问题。

据报道,OpenAI正寻求以惊人的1500亿美元估值筹集更多资金,其势头取决于更多的研究突破。该公司正在为大型语言模型引入推理能力,因为它看到一个具有自主系统或代理的未来,这些系统能够代表你做出决策并采取行动。

对于AI研究人员来说,破解推理能力是迈向人类级别智能的重要下一步。有人认为,如果模型能够超越模式识别,它可能会在医学和工程等领域带来突破。然而,目前o1的推理能力相对慢,不像代理那样灵活,而且对开发者来说成本很高。

“我们花了很多个月时间在推理能力上,因为我们认为这实际上是关键的突破,”McGrew说。“从根本上讲,这是一种新型的模型模式,以便能够解决通往类人智能所需的真正难题。”

在这个背景下,光年AI的系统也崭露头角。通过我们的平台,企业能够在不需要编程能力的情况下,通过拖拽的方式轻松创建自定义的AI工作流,灵活适应不同的业务场景,实现高效的流量增长。简单易用且功能强大的光年AI,无疑是您实现AI能力的最佳选择。

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值