DeepSeek R1 vs ChatGPT o1:谁在实际任务中更胜一筹?

图片

DeepSeek-R1的横空出世瞬间引爆行业,原本占据领先的OpenAI o1模型顿感如坐针毡。为此,我们将对两位选手进行一番测试,尝试通过简单的数据分析与市场研究任务评判哪方更具王者气质。

选手介绍:ChatGPT O1 vs DeepSeek R1

基本情况

ChatGPT O1

DeepSeek R1

开发商

OpenAI

DeepSeek AI

侧重点

具备强大推理能力的文本型AI

高级搜索与知识合成

多模态功能

有(文本、图像)

有(文本、搜索、数据处理)

编码能力

强大,广泛应用于开发领域

针对高级数据检索与AI编码任务进行了优化

训练数据

OpenAI的专有数据集

重点关注知识合成的网络数据集

速度和效率

响应速度快,针对复杂查询进行了优化

在信息检索和构建方面非常高效

目标用例

聊天机器人、自动化、内容创作

研究、AI驱动搜索、高级问题解答

为了公平起见,这里使用Perplexity Pro Search,该平台同时支持o1和R1模型。我们的目标是超越基准测试,观察这些模型能否从网络收集信息、挑选正确内容并处理原本需要大量人工参与的简单任务。

事实证明,两款模型均拥有傲人表现,但在提示词不够具体时也都容易犯迷糊。其中o1在推理任务上略胜一筹,而R1的推理透明度更高,出错时用户更容易追踪问题根源。

闲言少叙,正式进入对垒环节,本次测试共分三轮比拼:

通过网络数据计算投资回报

第一项测试考验模型能否准确计算出投资回报率。我们设置如下场景:用户在Alphabet、亚马逊、苹果、Meta、微软、英伟达和特斯拉(即「美股七巨头」)身上投资140美元,买入时间为2024年每月的第一天。两位大模型选手的任务,就是计算出对应时段内该投资组合的价值回报。

要完成这项任务,大模型需要先提取每月第一天七巨头的股价信息,将每月投资额度平均分配给各只股票(每只20美元),再将全年内的股价相加以计算总投资价值。

很遗憾,两位选手都未能通过这项测试。o1虽然给出了2024年1月和2025年1月的股价列表以及计算投资价值的公式,却未算出正确的数值,只表示几乎没有投资回报。R1这边则犯了个大错,仅在2024年1月进行过一次买入,并直接跳往2025年1月计算回报。

图片

o1的推理轨迹未给出充分信息。

这里最有趣的是两位选手的推理过程。o1这边没能提供关于如何得出结果的细节;而R1则以详尽的轨迹表明,之所以得不到正确结果,是因为Perplexity的检索引擎无法获取月度股价数据(其实大多数检索增强生成应用都无法获取月度数据)。结合这一重要反馈,我们设计出下一轮实验内容。

图片

R1推理轨迹显示其信息素材不足。

文件内容推理

我们再次运行前面的测试,但这回以文本文件形式提供信息,这就回避了检索不到网络信息的窘境。为此,我们将雅虎财经中每只股票的月度数据粘贴到文本当中,并投喂给两款大模型。文件中包含各只股票的名称、2024全年每月第一天的股价,以及时段末尾最终股价的HTML表。数据未经清洗,旨在减少人工工作量并测试模型能否从中挑选出正确的部分。

这一次,两款模型同样未能提供正确答案。o1似乎从文件中提取了数据,但建议由用户在Excel等工具中手动完成计算。其推理轨迹仍非常模糊,给不出任何可用于排查模型故障的有用信息。R1虽然失败,但推理轨迹包含大量有用信息。

例如,R1模型正确解析了每只股票的HTML数据并提取到正确信息,还能逐月计算投资,将其相加并根据表格中的最新股价计算出最终价值。然而,这个计算值仅止步于推理链,未能形成最终答案。此外,R1模型还搞错了英伟达图表中的一行,此行标记了英伟达在2024年6月10日的股票拆分(1拆10),导致计算出的投资组合最终价值有误。

图片

R1将结果隐藏在了推理轨迹当中,而且可清楚看到哪个环节出了错。

两位选手的最大区别不在于结果本身,而是模型展现其如何得出结果的能力。R1显然带来了更好的体验,既凸显出大模型的局限性,也能引导用户重新设计提示词并格式化数据,以求在后续推理中提升结果质量。

通过网络比较公开数据

最后一项实验,是要求两款模型比较四位NBA顶尖中锋的统计数据,确定从2022/2023赛季到2023/2024赛季,哪位中锋的投篮命中率增幅最大。这项任务要求模型对不同数据点进行多步推理,我们还在提示词中埋下一个小陷阱——文班亚马,他2023年才以新秀身份加入联盟。

这波比拼中的检索环节比较简单,毕竟NBA球员数据在网上一抓一大把。两个模型也都给出了正确回答(不卖关子,答案是扬尼斯)。可尽管二者使用的相同的信息源,算出的数字却略有不同。它们都没意识到文班亚马不符合比较条件,而是直接收集了他在欧洲联赛期间的统计数据。

在答案中,R1不仅对结果做出良好细分,还生成一份比较表格并附上来源链接。更丰富的上下文帮助我们及时调整了提示词,在强调需要注意只计算特定NBA赛季的投篮命中率后,R1模型正确将文班亚马排除在外。

图片

仅仅在提示中加上一词,就对结果产生了巨大影响。人类能够自主拼凑背景信息,但AI不行。所以提示词应尽可能具体,包含人类思考中隐含的假设信息。

最终结论

推理模型确实强大,但执行任务的可信度还远远达不到预期。从实验结果来看,o1和R1都经常犯下低级错误,表明最顶尖的大模型也需要细致引导才能给出准确答案。

很明显,优秀的推理模型应该在缺乏任务信息时向用户说明,或者提供推理轨迹以引导用户更好地发现错误、调整提示,快速提高模型后续响应的准确性和稳定性。在这方面,R1明显占据上风。期待未来的推理模型(包括OpenAI即将发布的o3系列)能够为用户提供更好的可见性与控制力。

最后,期待您关注并留下评论,这个年轻的个人栏目将持续为您带来IT领域的更多干货、资讯与趣闻。明天见!

### 比较DeepSeek R1ChatGPT O1 #### 特点对比 DeepSeek R1是一款专注于特定领域知识提供技术支持的人工智能助手,其设计旨在通过深入理解某一技术领域的文献资料来辅助专业人士进行高效的信息检索与分析。相比之下,ChatGPT O1则是一个更为通用的语言模型平台,能够处理广泛的话题并生成自然流畅的文字内容。 - **专业知识深度**:DeepSeek R1针对IT行业提供了更深层次的专业解析能力,在回答涉及复杂概念时可以给出更加详尽且精准的技术细节[^1]。 - **应用场景灵活性**:虽然两者都能应对多种类型的查询请求,但是由于ChatGPT O1具备更强的泛化能力广泛的训练数据源,因此适用于更多样化的交流场景[^2]。 #### 性能表现 当评估这两种系统的实际运行效果时,可以从响应速度、准确性以及用户体验等多个维度来进行考量: - **响应时间**:通常情况下,基于云端部署的服务如ChatGPT O1可能会拥有更快的数据传输速率服务调用效率,从而实现更低延时的回答反馈机制[^3]。 - **结果精确度**:鉴于DeepSeek R1专门优化了对专业技术文档的理解力,所以在面对高度专业化的问题时往往能提供更高精度的答案解释[^4]。 ```python import time def compare_response_time(system_a, system_b): start_time = time.time() response_from_system_a = system_a.get_answer("test query") end_time_for_a = time.time() response_from_system_b = system_b.get_answer("test query") end_time_for_b = time.time() print(f"System A took {end_time_for_a - start_time} seconds.") print(f"System B took {end_time_for_b - end_time_for_a} seconds.") # 假设这是两个系统的实例对象 deepseek_r1_instance = ... chatgpt_o1_instance = ... compare_response_time(deepseek_r1_instance, chatgpt_o1_instance) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值