2月初,OpenAI上线了deep research功能,对标Gemini的deep research。官网介绍,它是一个由o3 模型驱动的多智能体,针对用户提出的问题,查找、分析并综合数百个在线来源,以创建一份相当于研究分析师水平的全面、精确、可靠的综合报告,适合在金融、科学、政策和工程等领域进行密集知识工作的人员。
娜姐体验了几天,测试了它在撰写英文综述、中文综述和辅助就医决策方面的表现。以下是体验报告。
1 英文综述
针对“罕见遗传病对阿兹海默症的影响”主题写一篇英文综述:
接着,它工作了8分钟,检索了27个信息源,并向我展示了详细的检索-分析-汇总信息的过程:
如果遇到doi没办法解析,它会尝试调整策略,比如换成直接搜索标题,并从摘要中查找是否包含关键信息。
最后生成一份近6000字的综述报告。
点击参考文献链接,可以看到引用的精确位置,方便你核实信息:
写作质量怎么样?
相比Gemini的深度研究,它更像是一份学术报告,有关于机制和原理的详细解释:
比如OpenAI deep research关于TREM2基因对于AD的影响:
相比之下,Gemini 的深度研究报告中关于TREM2的部分,一句带过:
OpenAI的深度研究分析和汇总关键信息的能力更强,Gemini的分析功能弱很多。
有没有缺点呢,也有的。比如涉及AD的罕见基因有有益和有害的,有益的基因原文总结有四个,但是OpenAI深度研究只总结了2个:
所以,如果你对某一个主题非常了解,可以让deep research来帮你完善细节。但是,如果你完全不了解,警惕它给出的报告有可能不全面。
2 中文综述
如果要写一份中文综述,我想知道它是不是只检索中文信息源?报告质量如何?
针对“中药基于铁死亡途径防治骨性关节炎研究进展”这个选题,帮我写一份文献综述。并且把有相关功能的中药单体用表格总结呈现。
注意,这个选题不是对骨性关节炎有治疗效果的中药,而是一定要通过铁死亡途径发挥作用的中药。我用Perplexity和SciSpace检索,效果都不好。来看看OpenAI deep research的报告:
先跟我确认详细的报告框架:
Deep research分析检索了8分钟,呈现给我一份1万多字的综述报告:
关于各类中药单体调控铁死亡治疗骨性关节炎的机制,它按要求汇总了一份表格给我:
我对标这篇2025年发表在北大核心期刊“中国骨质疏松杂志”上的综述,有7个中药单体是相同的,4个不同。用药剂量差别也很大。
对比一下,Deep research漏掉了丹参酮ⅡA和乙酰姜酮。但是,原作者对于虾青素和大黄素都只引用了一篇文献,且没有包含槲皮素、芍药酚和卡达莫宁,这些都是多篇文献证实的,也不够全面。
可见,虽然是中文检索,但是Deep research经过分析,引用的文献来源都是英文的;并且我用英文重新检索了一遍,结果是差不多的。也就是说,Deep research会根据报告主题和目的,灵活选择搜索来源和检索词,并汇总生成报告。
以下是Gemini的深度研究报告:
是通过铁死亡途径来减轻骨关节炎的中草药,不是减轻炎症的中药。Gemini的总结没一个是对的。
可以看出,相比Gemini的deep research,OpenAI家的多智能体对问题的拆解、分析和汇总确实更强大,它能给出更精准和更深入的报告。
3 生活决策助手
如果我们生活中要做投资或者就医这种重大决策,它给出的建议靠谱吗?
比如阿兹海默症的治疗药物和方案,有成熟的药物(安理申、美金刚),有2024年刚获批的两款单抗,还有有争议的国产甘露特钠。我们来看看它给出的报告质量如何:
标准药物疗法和最新的单抗药物都包括了,还是很全面准确的。
关于国药甘露特纳,它是这样总结的(这款药目前纳入医保了。有争议,大家可以搜一下“饶毅 甘露特纳”,但是我看小红书上有很多患者还在服用):
还有一些非药物干预方案和护理措施,还有最新研究进展,我就不截图了。总体来说,报告准确、前沿,非常有参考价值。
2024年开始,国内兴起了一种针对中晚期阿兹海默的颈部微创手术“颈深静脉吻合手术”,我想知道这个手术靠不靠谱,是否值得做?
Deep research给出了一份包含治疗原理、手术细节过程和临床试验与疗效证据、国际认可度的全面报告,我截取一部分:
看了这份报告,这个手术兴起时间很短,且效果有限。如果我是患者家属,我就不愿做这个手术。
有人说,我直接挂一个专家号,咨询专家不就解决了吗?
如果专家正在招募受试者或者是利益相关方,会不会夸大手术的效果?看上面那位谢教授的官网链接新闻:
2024年10月的新闻,这时候Lecanemab和Donanemab都已经获得FDA批准,并且前者已经在中国获批上市,但是这条官方新闻还这么写。
所以,在重大就医决策之前,如果你拿着这么一份第三方的最新的、全面的报告,去和医生讨论治疗方案,是非常有帮助的。
同样的问题,我也测试了Gemini的deep research,用中文对话,关于两款单抗药物的最新进展是缺失的,用英文提问就有了。所以,用Gemini如果用中文提问,默认是中文信息源检索,并且也没有更新到最新。
总结一下:
1 和谷歌的深度研究相比,OpenAI的总结更全面深入和精确,并且能包含领域最新的进展。
2 中英文对话对OpenAI deep research检索结果影响不大。如果是文献综述,它会自动检索英文学术期刊和研究机构的官网信息。但是,中英文对话对Gemini的深度检索结果影响很大,英文检索质量更高。
不足之处:
1 单次报告给出的参考文献来源一般就20-30条,对于一篇综述来说还远远不够。但是,可以在后续对话中让它就某一个分主题继续“深度研究”,它又能给出更多的参考来源;
2 参考来源基于pubmed、PMC和一些开放获取期刊官网,还有政府和研究机构官网。订阅类期刊,deep research只能读到摘要。文献来源不够全面。
使用技巧:
1 下达指令时,包含这份研究报告的目的和内容框架,框架越详细越好,OpenAI deep research也会在第一轮对话中和你确认研究细节。
2 根据给出的研究报告,如果某一部分内容你觉得不够详细,还想扩展一下,可以在后续对话中继续提问。相比之下,Gemini的deep research报告是一次性的,给出报告,这个对话就结束了。
但是,也要记得,pro用户目前是一个月100次对话,plus用户后期开放是一个月10次机会。省着点用。
今天就介绍到这。
如果觉得有用,欢迎在看、转发和点赞,一键三连!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。