我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。
ChatGPT深夜上线新推理模型o3-mini high和o3-mini(速度更快),卖点是:
比o1更高的输出质量,但价格只有o1的1/10,且上下文窗口增加到20万token。
娜姐第一时间进行了测评,先说结论:
思考过程在模仿DeepSeek R1,但是输出质量不如之前的ChatGPT o1。
开源模型DeepSeek上线之后,地板价格加上高质量回答效果,让OpenAI慌了。一边声讨DeepSeek走捷径—声称DeepSeek是基于ChatGPT”蒸馏”出来的模型,一边不得不考虑把价格降下来,防止用户流失。
娜姐第一时间测试了o3-mini 在科研领域和学术写作中的应用。以下是实测对比:
1 学术问题回答
o3-mini作为一个推理模型,擅长复杂问题的推理回答。娜姐之前测试对比了DeepSeek和ChatGPT o1。
现在再把o3-mini加入对比一下:测试问题“什么是人类文化的根源? ”
先来看一下o3-mini的思考过程:
基本上是一个先发散,再收拢的过程。
DeepSeek虽然展示的思考过程更细致,但是也是差不多思路:
而之前的ChatGPT o1没有给我展示详细的思考过程,在算力加强版提示词的push下,它提升了思考时间,展示的思考过程和DeepSeek还是有很大不同的:
DeepSeek更多的在分析问问题的人的意图,o1则着重每一个知识点的延伸思考。
再来对比针对该问题的回复答案:
以下是DeepSeek的回答:
ChatGPT o1的回答:
o1的六个要点,只有语言与符号的出现,是和DeepSeek一样的。
再来看o3-mini high的回答:
对比一下,观点一三四都和DeepSeek一样。我合理的怀疑是因为o3-mini的思考过程在模仿DeepSeek,所以答案和DeepSeek更相似。
2 充当评审专家,对论文和标书进行预评审
评审专家是需要深刻洞察和逻辑推理的一项任务。在娜姐的《AI辅助课题标书的撰写》课程里,有一节是让AI充当评审专家,对标书初稿进行预评审,提出问题和改进意见,方便我们查漏补缺,进一步全面打磨和提升标书质量。
之前娜姐测试了好几个AI大模型和提示词,ChatGPT o1完成质量最高。近2万字的标书,o1在阅读全文的基础上,针对每一部分都能给出精准的评审意见和修改建议。比Claude完成的还要好。学员们也都很惊叹ChatGPT o1的逻辑推理能力。
现在o3-mini声称是o1的升级版,我们也来测试对比一下,o3-mini、ChatGPT o1和DeepSeek分别作为评审专家,进行标书预评审的效果对比。
以下是ChatGPT o1的回复:
立项依据部分:
不论是总的评审意见,还是下面详细的修改建议,真的是很精准和极具洞察力。
再看一下“本项目的特色与创新之处”:
怎么样?把这几点补充进去,是不是感觉你的标书创新性又上了几个台阶?
再来看看最新的o3-mini:
立项依据部分:
虽然提的点和o1是差不多的,但是在修改建议的细节上,没有o1细节丰富全面。感觉虽然价格便宜了,但是在输出的算力上偷工减料了。
再看“本项目的特色与创新之处”,o3 mini的分析:
这个除了第一点和o1相似,后面两点都没有o1的观点更准确。可见,o3的回复长度和内容质量比o1都差了许多。
再来看DeepSeek。
立项依据部分:
提出的3个问题大致和o1提的差不多,但是没有o1精准,且修改建议出现幻觉,开始引用不存在的文献。
再看创新性评估:
提了两点,也比o1差远了。
综上,对于标书预评审来说,ChatGPT o1还是效果最优。ChatGPT o1>ChatGPT o3-mini > DeepSeek。
总结一下,o3-mini好像是OpenAI在DeepSeek的冲击下,上线的一个模型:一方面对于DeepSeek的深度思考算法很认可,一方面对于DeepSeek的开源白菜价很焦虑。
于是,匆忙推出了这么一个,在价格和性能上和DeepSeek都不能相比的模型。
今天就介绍到这。
如果觉得有用,欢迎在看、转发和点赞,一键三连!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。