DeepSeek R1 vs ChatGPT o1：谁在实际任务中更胜一筹？

DeepSeek-R1的横空出世瞬间引爆行业，原本占据领先的OpenAI o1模型顿感如坐针毡。为此，我们将对两位选手进行一番测试，尝试通过简单的数据分析与市场研究任务评判哪方更具王者气质。

选手介绍：ChatGPT O1 vs DeepSeek R1

基本情况	ChatGPT O1	DeepSeek R1
开发商	OpenAI	DeepSeek AI
侧重点	具备强大推理能力的文本型AI	高级搜索与知识合成
多模态功能	有（文本、图像）	有（文本、搜索、数据处理）
编码能力	强大，广泛应用于开发领域	针对高级数据检索与AI编码任务进行了优化
训练数据	OpenAI的专有数据集	重点关注知识合成的网络数据集
速度和效率	响应速度快，针对复杂查询进行了优化	在信息检索和构建方面非常高效
目标用例	聊天机器人、自动化、内容创作	研究、AI驱动搜索、高级问题解答

为了公平起见，这里使用Perplexity Pro Search，该平台同时支持o1和R1模型。我们的目标是超越基准测试，观察这些模型能否从网络收集信息、挑选正确内容并处理原本需要大量人工参与的简单任务。

事实证明，两款模型均拥有傲人表现，但在提示词不够具体时也都容易犯迷糊。其中o1在推理任务上略胜一筹，而R1的推理透明度更高，出错时用户更容易追踪问题根源。

闲言少叙，正式进入对垒环节，本次测试共分三轮比拼：

通过网络数据计算投资回报

第一项测试考验模型能否准确计算出投资回报率。我们设置如下场景：用户在Alphabet、亚马逊、苹果、Meta、微软、英伟达和特斯拉（即「美股七巨头」）身上投资140美元，买入时间为2024年每月的第一天。两位大模型选手的任务，就是计算出对应时段内该投资组合的价值回报。

要完成这项任务，大模型需要先提取每月第一天七巨头的股价信息，将每月投资额度平均分配给各只股票（每只20美元），再将全年内的股价相加以计算总投资价值。

很遗憾，两位选手都未能通过这项测试。o1虽然给出了2024年1月和2025年1月的股价列表以及计算投资价值的公式，却未算出正确的数值，只表示几乎没有投资回报。R1这边则犯了个大错，仅在2024年1月进行过一次买入，并直接跳往2025年1月计算回报。

o1的推理轨迹未给出充分信息。

这里最有趣的是两位选手的推理过程。o1这边没能提供关于如何得出结果的细节；而R1则以详尽的轨迹表明，之所以得不到正确结果，是因为Perplexity的检索引擎无法获取月度股价数据（其实大多数检索增强生成应用都无法获取月度数据）。结合这一重要反馈，我们设计出下一轮实验内容。

R1推理轨迹显示其信息素材不足。

文件内容推理

我们再次运行前面的测试，但这回以文本文件形式提供信息，这就回避了检索不到网络信息的窘境。为此，我们将雅虎财经中每只股票的月度数据粘贴到文本当中，并投喂给两款大模型。文件中包含各只股票的名称、2024全年每月第一天的股价，以及时段末尾最终股价的HTML表。数据未经清洗，旨在减少人工工作量并测试模型能否从中挑选出正确的部分。

这一次，两款模型同样未能提供正确答案。o1似乎从文件中提取了数据，但建议由用户在Excel等工具中手动完成计算。其推理轨迹仍非常模糊，给不出任何可用于排查模型故障的有用信息。R1虽然失败，但推理轨迹包含大量有用信息。

例如，R1模型正确解析了每只股票的HTML数据并提取到正确信息，还能逐月计算投资，将其相加并根据表格中的最新股价计算出最终价值。然而，这个计算值仅止步于推理链，未能形成最终答案。此外，R1模型还搞错了英伟达图表中的一行，此行标记了英伟达在2024年6月10日的股票拆分（1拆10），导致计算出的投资组合最终价值有误。