OpenAI发布O3推理模型:多模态+工具调用,数据检索、图表分析与PPT制作全自动 (实测分析)

众所周知,o3模型是OpenAI为它的deep research深度研究产品量身打造的一款推理模型:专门针对深度研究的使用场景,采用 “端到端的强化训练”方法,能自主进行问题拆解、检索、判断信息、引用信息、汇总信息并生成报告。200美金一个月仍然被无数人肯定,说明这款推理模型训练的确实很成功。

           

之前是使用deep research才能调用o3,现在,OpenAI把它单独拿出来给用户(o4-mini是o3的紧凑版本)。

           

我推测是因为近期谷歌Gemini 2.5 pro推理模型风头太过强劲,Altman坐不住了,才丢出这个王牌产品。

           

话说Gemini 2.5 pro确实很惊艳:百万token的上下文窗口,对于大量数据的分析、汇总和洞察效果很好,一般问题的回答也非常理性客观,大大降低了一般模型的幻觉缺陷;此外,代码能力也很强。

           

O3在解决问题时,可以自主调用工具:比如搜索网页,编写代码,绘制图表等组合操作。来看看它表现如何。

           

场景测试:

1 关于某一主题的数据查询和图表制作:

“请帮我查找阿兹海默症近十年的流行数据,绘制图表,并用ppt展示给我”    

           

三项任务:1 查找数据;2 绘制图表; 3 制作PPT。来看看o3完成的怎么样:

图片

    

图片

               

图片

               

图片

           

来看看o3对这个任务的完成质量:

针对第一个任务“近十年阿兹海默症的流行数据”,o3按照年份分别检索了近50个网站(都是WHO、世界阿兹海默症协会报告、pubmed等高质量数据来源),并将数据分析汇总。

这一步如果个人来完成,至少的1小时以上,o3五分钟之内就完成了。并且质量很高。

           

图表制作。

确实是正确反映了调查的数据,统计图的中文标识有点问题。

           

PPT制作。           

点击”PPT下载”,可以看到生成了三张PPT,一张封面,一张数据图,一张文字解说。    

图片

           

虽然图表绘制和PPT制作都还比较简单,但是也展示了大模型自主调用不同工具的能力。随着模型的快速进化,这些功能肯定是会越来越完善。

           

           

2 图像识别和分析:

O3的多模态能力,能把图像识别作为思考的一部分,结合图像进行视觉+文字混合推理。

图片

               

           

图片

    

图片

           

O3的多模态结合推理能力,识别、分析图像的准确度还是挺高的。

           

           

3 分析实验数据、解读图表:

基于o3看图、理解图、围绕图做推理能力的提升,帮我们解读图表更是不在话下:

           

和之前的模型Kimi,GPT-4o、Claude 3.7测试对比,o3的分析和解读更细化了:    

图片

           

图片上展示的数据变化也分析的非常合理,不仅仅是总结性结论:    

图片

           

统计图直接还原成表格,显著性差异分析准确:    

图片

娜姐发现,很多同学写论文的时候不会分析结果:

可能实验做了很多,统计图也很漂亮。但是,写不出来,寥寥几句把好几个实验结果就概括了。属于是茶壶里煮饺子倒不出来。

           

看看o3的图表分析,不论是详细的结果描述还是总结论,写的都很专业。以后不会写,就让AI先分析给点参考吧。

           

面对Gemini 2.5 pro的全能无死角,一向要处处压谷歌一头的Altman 坐不住了。

O3部分测试流程被压缩,发布的很仓促。后续还会有更强大的 o3-pro 即将发布依托更多计算资源进一步提升性能。

虽然目前版本的o3自主规划综合调用工具的能力除了还不是特别强。但是,纵观AI的发展历史,但凡一项功能被开放给用户,就会快速进化和完善。包括AI作图、写代码、计算能力等。

----

今天就介绍到这里。

如果觉得有用,欢迎在看、转发和点赞!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值