今天凌晨一点,OpenAI 悄无声息地发布了 OpenAI o1。
GPT-4o竟然被碾压至此!!!
GPT-4o竟然被碾压至此!!!
风声四起的Q*模型,最早的消息来自去年十一月份。而前段时间一直在预热,代号为“草莓”的模型也宣传在几周内的秋季发布。据官方消息,这个系列的模型可以推理完成复杂任务,并解决许多以前的模型解决不了的问题。今天,它们终于现出真身,以 o1 为正式名字,闪亮登场!
模型名字中的 o 指代的是 Orion「猎户座」,而 o1 名字中“1”的由来在开发文档中得到了解释:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为 1,并将此系列命名为 OpenAI o1。
奥特曼在凌晨一点发推,「需要更多耐心的时代结束了!」
从官方发布的各种消息来看,这次突然发布的o1系列,三个型号分别为:
-
o1,新的大模型天花板,过于强大目前不方便对外公开。
-
o1-preiview,o1的预览版,可以立即提供给ChatGPT付费用户和API用户。
-
o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。
和往常一样打开 ChatGPT 官网,可以看到 o1 已经可以使用了。本次同时发布了两个版本,分别是 o1-preview 和 o1-mini,preview作为正式版本的预览发布,而 mini 版本就是一个体量更小、开销更小且速度更快的模型。
既然本次发布的模型侧重点是“推理”,o1的能力,究竟怎样?
那么,中秋节快要到了,我们让o1来帮我们计算一下要如何调休,能实现吗?
输入:今年中秋节是9月15日和9月16日,这两天是周一和周二,应该怎么调休?
事实上,在我提的这个问题里面,我给出的所有信息都是错误的。中秋节只有一天,仔细观察也能发现,具体的时间和星期几也都不对,o1会如何处理这个问题呢?
模型先进行了为时17秒的思考,最初,我们能看到模型在进行“头脑风暴”。「正在思考」的字样逐渐在「查看假期安排」、「核实日期信息」等推理步骤中切换。
根据解答可以发现,即使我给出的信息带有错误,模型也能及时根据真实的情况进行搜索分析,从而给出正确的答案。
现在,我们点开o1对话框上面的思考xx秒
按钮查看模型完整的思考过程:
非常严谨!正确的日期信息、节日安排以及放假规划在推理过程中都得到了体现。
那么,针对之前各大AI大模型“华山论剑”的问题——13.9与13.11比大小,o1的表现如何?截止o1发布前的9月11日,GPT-4o仍然无法对这个问题给出正确回答。那么,o1会如何分析?
无论是分整数、小数比较,还是在不足位的部分补“0”,o1 都使用了人类生活中常用的推理方法,且给出了正确的答案及解释。
似乎这还远远没有到达 o1 能力的上限。我们再搬出2024年新高考一卷数学的压轴题,让 o1 尝试分析。
这一次,o1 使用了较长的时间进行分析,且三个小问需要分别解答。经过大约两分钟的推理,模型给出了三个小问的完整分析。
由于二三小问都是证明题,证明过程较长,这里就不展示所有的推理过程了。不过经过仔细比对,似乎 o1 真的能实现“自圆其说”,使用较为正确的推理策略。
经过进一步测试,倒数第二道导数大题能成功解决前两个小问,而第三问的解答中出现了步骤遗漏,给出了b>0的答案(实际的答案是b大于等于2/3)。
最后,我们再拿出之前问倒 GPT-4o 的阿里巴巴数学竞赛题对 o1 进行挑战。
这次,我们选取2024年数竞题目的前五题。
最后经过测试,只要能跑出答案,正确率差不多能有60% ,部分推理过程比答案简略的多,比如分类讨论的情况少了,导致答案错误。且在有些推理过程中o1会莫名其妙的停止推理不再回复,点刷新也没有反应。
根据官方发布的能力图可以发现,对于类似的数学竞赛 AIME,4o的正确率只有13.4%,而本次的 preview 版本能达到56.7% ,惊人的是,尚未发布的正式版 o1 居然有高达83.3%的正确率!比较其他能力如 CodeForce 算法竞赛等,对于这些复杂的推理问题,o1 的正确率来到了一个新的高度,比先前最强的 GPT-4o高出了几十个百分点,可以说,实现了全面碾压。
整体体验下来,o1 的推理能力确实很强,正确率很高。不过,o1 经常会在推理的过程中“宕机”,需要重新进行提问,可以是目前测试的人太多。
与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。
不过新模型的费用有些离谱:o1-preiview每周30条,o1-mini每周50条。
是每周,每周就能跑 30 条,看来 o1 模型推理成本很高了。
API 的价格上,o1-preiview每百万输入15美元,每百万输出60美元。
o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。
输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。
那么未来 o1 是否会成为主流?o1 绝对不止是一个普普通通的ChatGPT。
“在通往 AGI 的道路上,我们已再无阻碍。”
AGI 的新时代。
在今天,正式揭幕。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。