【LLM】OpenAI 的DAY12汇总和o3介绍

山顶夕景

已于 2025-01-04 17:02:08 修改

阅读量1.1k

点赞数 23

分类专栏： # LLM大模型 # RAG和Agent 文章标签： openai LLM o3 多模态

于 2024-12-28 17:21:09 首次发布

本文链接：https://blog.csdn.net/qq_35812205/article/details/144791205

版权

LLM大模型同时被 2 个专栏收录

122 篇文章

订阅专栏

RAG和Agent

38 篇文章

订阅专栏

note

o3 体现出的编程和数学能力，不仅达到了 AGI 的门槛，甚至摸到了 ASI（超级人工智能）的边。

Day 1：o1完全版，开场即巅峰

12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本，o1实现了质的飞跃。

在国际数学奥林匹克预选赛题目（AIME 2024）和编程能力测试（Codeforces）中，o1的表现分别提升了50%，复杂问题处理的错误率下降了34%。此外，多模态识别的加入，让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务，例如医生分析医学影像或设计师获取创意建议。o1的实用性大幅提升，但代价也不低。o1的高性能也伴随着高价格：只有200美元的Pro版订阅用户才能享受无限使用，而普通用户仅限每日20次。

Day 2：o1-mini强化微调，专业领域精准打击

第二天的更新聚焦于o1-mini模型的强化微调。这项技术通过强化学习方向的调整，使模型的推理能力得到显著提升。

尤其在医疗、法律等复杂领域，仅需“几十个例子”甚至12个例子，就能完成有效的微调。数据显示，强化后的o1-mini模型在测试中的通过率比传统微调模型提升24%，相比未强化版本更是高出82%。

Day 3：Sora，姗姗来迟的遗憾

等待了10个月后，Sora终于亮相。这款生成视频的工具支持最长20秒、分辨率达1080p的视频生成，并配备了创新的故事板功能。

用户可以通过时间轴设计场景卡片，串联多个提示词，系统自动生成过渡效果。此外，Remix、Blend和Loop三项工具提供了更灵活的编辑能力。然而，Sora的模型能力并未升级，导致生成效果频频翻车：运动逻辑混乱、物理效果缺失，甚至出现“鬼影”。尽管OpenAI为其配备了专业工具以及故事板功能，但模型本身的能力不足严重拖了后腿。更让人不满的是，Plus用户每月仅能使用50次，Pro用户也只能在“慢速”模式下享受无限使用。

Day 4：Canvas，AI多功能工作台

Canvas的发布，是OpenAI尝试从聊天机器人向生产力工具转型的标志。Canvas是OpenAI首次尝试打造AI版Google Docs的产品。

它将智能写作、代码协作和AI智能体集成到一个工作台中：

智能写作：提供实时编辑建议，优化文本质量。
代码协作：内置WebAssembly Python模拟器，实现无延迟的编程体验，并具备理解代码意图的能力。
AI智能体：用户可定制化AI助手，完成从撰写邮件到管理任务的操作。
Canvas的三大功能无缝集成，构成了一个多功能的创作工作室。然而，单独对比功能，其文本编辑不如Claude的Artifacts，编程便利性也逊色于Cursor。

Day 5 & Day 11：与苹果深度合作

在第五天和第十一天，OpenAI宣布了与苹果的合作成果。这次整合主要体现在三个方面：

与Siri协同：Siri可将复杂任务移交给ChatGPT处理。
写作工具增强：支持从零开始撰写文档、细化和总结内容。
视觉智能：通过iPhone 16的相机控制功能，用户可以深入了解拍摄对象。

此外，第十一天的更新还赋予ChatGPT更多Mac工具的调用权限。这次合作，不仅巩固了OpenAI的行业地位，也显示出苹果对AI领域的更高依赖。

Day 6：视频通话功能，“HER”成真

视频通话功能让用户可以通过镜头与GPT实时互动。这一功能虽然早在5月的演示中亮相，但此次正式上线仍让人兴奋。它不仅拓展了AI的交互方式，还让人联想到电影《HER》中与AI深度连接的场景。

Day 7-10：小更新，凑数之作

这几天的更新显得较为平淡。从Projects项目功能到ChatGPT搜索升级，再到o1图像输入和4o高级语音API开放，这几天的更新被评价为“可有可无”。

Projects项目功能：集中管理项目文件和对话。
ChatGPT搜索升级：支持对话内搜索和多模态输出。
o1图像输入与4o高级语音API：功能开放，但无重大创新。

尽管如此，集中对话文件管理和多模态搜索等功能，仍有一定实用价值。

Day 12：GPT-o3，终极王炸

在最后一天，OpenAI用GPT-o3的发布引爆全场。

相较于o1，o3在多个领域实现了跨越式进步：
Codeforces评分：2727，全球排名175，超过99%人类程序员。
博士级科学问题（GPQA）：87.7%，远超人类平均水平。
ARC-AGI基准测试：87.5%，展现了新型任务适应能力的飞跃。

尤其是ARC-AGI测试得分，从GPT-3的0%到GPT-4o的5%，再到o3的87.5%。
在这里插入图片描述
尽管o3的高算力成本暂时限制了普及，但它证明了Scaling Law依然有效，并将AI的发展推向新的高峰。

OpenAI o3：

o3在Codeforces编程竞技中击败了99.9%的程序员，在168076名程序员中排名175名。甚至o3的作者都打不过o3。
o3在编程解决真实世界需求方面也比o1有明显提升，在SWE-Bench软件开发测试中，之前发布的o1-preview是41.3%，o3是71.7%，也就是70%的真实世界需求，o3可以直接做对，并通过单元测试。也就意味着只有剩下30%的工作需要人类程序员去编码完成了，而这部分工作AI也可以帮助人类程序员大大提升效率。
在AIME 2024数学测试中做对了96.7%，相当于在美国数学奥林匹克竞赛上只答错了一道题。
在博士级别科学问题测试的GPQA Diamond中超过o1 10个百分点，而o1已经基本上是人类博士生的平均水平。
图形逻辑推理的ARC-AGI，o3经过微调后，达到87.5%，超过人类平均水平（85%）。

RFT：SFT只知道最优答案，RFT看到过多条路径，按照打分优化得分最高的那条路径生成的概率。可以简单理解为传统的PPO需要依赖训练好的奖励模型，而RFT这里甚至可以用专家规则来代替奖励模型打分。但前提是需要o1这种能生成搜索解空间的CoT大模型