【实测体验】OpenAI震撼发布o1大模型！

江湖人称麻花滕

于 2024-09-13 20:15:51 发布

阅读量587

点赞数 10

文章标签：人工智能 llama milvus 微信 matlab 开发语言

本文链接：https://blog.csdn.net/m0_59235699/article/details/142219307

版权

今天凌晨一点，OpenAI 悄无声息地发布了 OpenAI o1。

GPT-4o竟然被碾压至此！！！

风声四起的Q*模型，最早的消息来自去年十一月份。而前段时间一直在预热，代号为“草莓”的模型也宣传在几周内的秋季发布。据官方消息，这个系列的模型可以推理完成复杂任务，并解决许多以前的模型解决不了的问题。今天，它们终于现出真身，以 o1 为正式名字，闪亮登场！

模型名字中的 o 指代的是 Orion「猎户座」，而 o1 名字中“1”的由来在开发文档中得到了解释：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。有鉴于此，我们将计数器重置为 1，并将此系列命名为 OpenAI o1。

奥特曼在凌晨一点发推，「需要更多耐心的时代结束了！」

从官方发布的各种消息来看，这次突然发布的o1系列，三个型号分别为：

o1，新的大模型天花板，过于强大目前不方便对外公开。
o1-preiview，o1的预览版，可以立即提供给ChatGPT付费用户和API用户。
o1-mini，速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务。

和往常一样打开 ChatGPT 官网，可以看到 o1 已经可以使用了。本次同时发布了两个版本，分别是 o1-preview 和 o1-mini，preview作为正式版本的预览发布，而 mini 版本就是一个体量更小、开销更小且速度更快的模型。

既然本次发布的模型侧重点是“推理”，o1的能力，究竟怎样？

那么，中秋节快要到了，我们让o1来帮我们计算一下要如何调休，能实现吗？

输入：今年中秋节是9月15日和9月16日，这两天是周一和周二，应该怎么调休?

事实上，在我提的这个问题里面，我给出的所有信息都是错误的。中秋节只有一天，仔细观察也能发现，具体的时间和星期几也都不对，o1会如何处理这个问题呢？

模型先进行了为时17秒的思考，最初，我们能看到模型在进行“头脑风暴”。「正在思考」的字样逐渐在「查看假期安排」、「核实日期信息」等推理步骤中切换。

根据解答可以发现，即使我给出的信息带有错误，模型也能及时根据真实的情况进行搜索分析，从而给出正确的答案。

现在，我们点开o1对话框上面的思考xx秒按钮查看模型完整的思考过程：

非常严谨！正确的日期信息、节日安排以及放假规划在推理过程中都得到了体现。

那么，针对之前各大AI大模型“华山论剑”的问题——13.9与13.11比大小，o1的表现如何？截止o1发布前的9月11日，GPT-4o仍然无法对这个问题给出正确回答。那么，o1会如何分析？

无论是分整数、小数比较，还是在不足位的部分补“0”，o1 都使用了人类生活中常用的推理方法，且给出了正确的答案及解释。

似乎这还远远没有到达 o1 能力的上限。我们再搬出2024年新高考一卷数学的压轴题，让 o1 尝试分析。

这一次，o1 使用了较长的时间进行分析，且三个小问需要分别解答。经过大约两分钟的推理，模型给出了三个小问的完整分析。

由于二三小问都是证明题，证明过程较长，这里就不展示所有的推理过程了。不过经过仔细比对，似乎 o1 真的能实现“自圆其说”，使用较为正确的推理策略。

经过进一步测试，倒数第二道导数大题能成功解决前两个小问，而第三问的解答中出现了步骤遗漏，给出了b>0的答案（实际的答案是b大于等于2/3）。

最后，我们再拿出之前问倒 GPT-4o 的阿里巴巴数学竞赛题对 o1 进行挑战。

这次，我们选取2024年数竞题目的前五题。

最后经过测试，只要能跑出答案，正确率差不多能有60% ，部分推理过程比答案简略的多，比如分类讨论的情况少了，导致答案错误。且在有些推理过程中o1会莫名其妙的停止推理不再回复，点刷新也没有反应。

根据官方发布的能力图可以发现，对于类似的数学竞赛 AIME，4o的正确率只有13.4%，而本次的 preview 版本能达到56.7% ，惊人的是，尚未发布的正式版 o1 居然有高达83.3%的正确率！比较其他能力如 CodeForce 算法竞赛等，对于这些复杂的推理问题，o1 的正确率来到了一个新的高度，比先前最强的 GPT-4o高出了几十个百分点，可以说，实现了全面碾压。

整体体验下来，o1 的推理能力确实很强，正确率很高。不过，o1 经常会在推理的过程中“宕机”，需要重新进行提问，可以是目前测试的人太多。

与GPT-4o相比，o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

不过新模型的费用有些离谱：o1-preiview每周30条，o1-mini每周50条。

是每周，每周就能跑 30 条，看来 o1 模型推理成本很高了。

API 的价格上，o1-preiview每百万输入15美元，每百万输出60美元。

o1-mini会便宜一些，每百万输入3美元，每百万输出12美元。

输出成本都是推理成本的4倍，对比一下GPT4o，分别是5美元和15美元。

那么未来 o1 是否会成为主流？o1 绝对不止是一个普普通通的ChatGPT。

“在通往 AGI 的道路上，我们已再无阻碍。”

AGI 的新时代。

在今天，正式揭幕。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述