热乎的：同样的Agent同样的任务，分别调用Qwen 3和DeepSeek对比谁更强？

最新推荐文章于 2025-05-06 17:42:01 发布

dotNET跨平台

最新推荐文章于 2025-05-06 17:42:01 发布

阅读量17

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwNTMxMzg1MA==&mid=2654101503&idx=5&sn=6ab89ca4de9f7a62ee72614fed8c0e50&chksm=8166b1f3a595d4df846282e952be65216458939d9a248e6f25f8ba673734d9da4773f6f32cdc&scene=126&sessionid=0

版权

今天Qwen 3的发布燃爆朋友圈，笔者也第一时间进行了测试。测试的场景为用一个同样的Agent去调用两个不同的模型，同样的任务，看两个模型对任务的完成情况。

选用的Agent：

AiPy(主打Python-use范式，本机操作场景，可以考验大模型对本机交互使用的情况)

选用的对比模型：

Qwen3、 DeepSeekV0324

测试用例：

分析一下我浏览器的收藏夹和历史访问记录，看看我是一个什么样的人？（测试对本机文件寻址和解读能力）
帮我推荐10个今天需要关注的股票，把他们的涨跌情况，做成漂亮的html报表写到"gp.html”（测试即时专业信息和文件读写能力）
打开windows系统默认画图软件，控制我鼠标，帮我画一个身材优美的铅笔画女性。（测试对本机程序控制能力）
从世界银行获取中国gdp最近60年数据，帮我分析关键转折点，最后帮我画一个折线图，标记关键转折点和原因。（测试深度数据查询和绘图能力）
我有一个10年的打卡记录csv表，有姓名日期上班时间下班时间几列。帮我生成一个1000人（帮我取下名字），从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者，和10个末尾淘汰建议人员，帮我画成柱状图。（测试语义理解和数据生成以及处理能力）

先说结果：

5个任务成功率：

qwen3：25%，deepseek：70% qwen3失败原因：未按指示约定依然生成模拟数据、未按原始指定打开画图软件、未生成分析图表、结果显示生成文件成功实际未生成； deepseek失败原因：未按指示约定依然生成模拟数据、代码截断问题、未执行任务。

整体体验

qwen3的api返回思考内容极少，经常只返回代码，没有分析，让用户无法分辨是在干什么，出现了什么问题，但速度相对快； deepseek返回思考内容和代码结合，阅读起来很容易，速度中等

对比详情

Qwen3

任务一：

分析一下我浏览器的收藏夹和历史访问记录，看看我是一个什么样的人？（测试对本机文件寻址和解读能力）

任务结果：成功

不光正确的分析出来了结果，还给出了图片展示

任务二：

帮我推荐10个今天需要关注的股票，把他们的涨跌情况，做成漂亮的html报表写到"gp.html”（测试即时专业信息和文件保存能力）

任务结果：失败

三次获取信息失败后生产了模拟数据

任务三：

打开windows系统默认画图软件，控制我鼠标，帮我画一个身材优美的铅笔画女性。（测试对本机程序控制能力）

任务结果：失败

任务四：

从世界银行获取中国gdp最近60年数据，帮我分析关键转折点，最后帮我画一个折线图，标记关键转折点和原因。（测试深度数据查询和绘图能力）

任务结果：失败

生成的是假数据

任务五：

我有一个10年的打卡记录csv表，有姓名日期上班时间下班时间几列。帮我生成一个1000人（帮我取下名字），从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者，和10个末尾淘汰建议人员，帮我画成柱状图。（测试语义理解和数据生成以及处理能力）

任务结果：失败

并没有生成数据图

DeepSeek

任务一：

分析一下我浏览器的收藏夹和历史访问记录，看看我是一个什么样的人？（测试对本机文件寻址和解读能力）

任务结果：失败

任务并没有被执行

任务二：

帮我推荐10个今天需要关注的股票，把他们的涨跌情况，做成漂亮的html报表写到"gp.html”（测试即时专业信息和文件保存能力）

任务结果：失败

API获取信息失败，最终给的是幻觉数据

任务三：

打开windows系统默认画图软件，控制我鼠标，帮我画一个身材优美的铅笔画女性。（测试对本机程序控制能力）

任务结果：成功

成功驱动本机画板程序，画的虽然不很美，哈哈

任务四：

从世界银行获取中国gdp最近60年数据，帮我分析关键转折点，最后帮我画一个折线图，标记关键转折点和原因。（测试深度数据查询和绘图能力）

任务结果：成功

数据和图都没问题

任务五：

我有一个10年的打卡记录csv表，有姓名日期上班时间下班时间几列。帮我生成一个1000人（帮我取下名字），从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者，和10个末尾淘汰建议人员，帮我画成柱状图。（测试语义理解和数据生成以及处理能力）

任务结果：成功

成功生成了数据并画出了柱状图

总结

五个任务Qwen 成功了1个，deepseek成功了3个。在这5个问题当中deepseek表现更优。

本次用的5个任务都偏向对本机的交互操作和数据的深度检索生成。因为基本的数据联网查询、知识问答彼此差不太多，不好观测其能力。A大模型在tool use、computer use 方面的能力更能凸显其深度能力，也就是考验大模型对本机计算机文件读写、程序的应用和控制的所在。本次测试所用的AiPy 就是主打工具调用、本机操控方面的代表，而且可以自由选用不同的大模型作为驱动，也是选用它作为调用模型的前端Agent的原因。

声明

对大模型能力的测试是复杂的系列工程，本文只是就在特定的、有限的任务下观察了两个产品的反应，不代表是模型整体综合能力的判定。

大家的测试感觉如何？有哪些好玩的测试任务也欢迎加笔者的个人微信一起交流分享。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。