热乎的:同样的Agent同样的任务,分别调用Qwen 3和DeepSeek对比谁更强?

今天Qwen 3的发布燃爆朋友圈,笔者也第一时间进行了测试。测试的场景为用一个同样的Agent去调用两个不同的模型,同样的任务,看两个模型对任务的完成情况。

选用的Agent:

AiPy(主打Python-use范式,本机操作场景,可以考验大模型对本机交互使用的情况)

选用的对比模型:

Qwen3、 DeepSeekV0324

测试用例:

  1. 分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)

  2. 帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件读写能力)

  3. 打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)

  4. 从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)

  5. 我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)

先说结果:

5个任务成功率:

qwen3:25%,deepseek:70% qwen3失败原因:未按指示约定依然生成模拟数据、未按原始指定打开画图软件、未生成分析图表、结果显示生成文件成功实际未生成; deepseek失败原因:未按指示约定依然生成模拟数据、代码截断问题、未执行任务。

 整体体验

 qwen3的api返回思考内容极少,经常只返回代码,没有分析,让用户无法分辨是在干什么,出现了什么问题,但速度相对快; deepseek返回思考内容和代码结合,阅读起来很容易,速度中等

对比详情

Qwen3

任务一:

分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)

任务结果:成功

不光正确的分析出来了结果,还给出了图片展示

任务二:

帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件保存能力)

任务结果:失败

三次获取信息失败后生产了模拟数据

任务三:

打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)

任务结果:失败

任务四:

从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)

任务结果:失败

生成的是假数据

任务五:

我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)

任务结果:失败

并没有生成数据图

DeepSeek

任务一:

分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)

任务结果:失败

任务并没有被执行

任务二:

帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件保存能力)

任务结果:失败

API获取信息失败,最终给的是幻觉数据

任务三:

打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)

任务结果:成功

成功驱动本机画板程序,画的虽然不很美,哈哈

任务四:

从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)

任务结果:成功

数据和图都没问题

任务五:

我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)

任务结果:成功

成功生成了数据并画出了柱状图

总结

五个任务Qwen 成功了1个,deepseek成功了3个。在这5个问题当中deepseek表现更优。

本次用的5个任务都偏向对本机的交互操作和数据的深度检索生成。因为基本的数据联网查询、知识问答彼此差不太多,不好观测其能力。A大模型在tool use、computer use 方面的能力更能凸显其深度能力,也就是考验大模型对本机计算机文件读写、程序的应用和控制的所在。本次测试所用的AiPy 就是主打工具调用、本机操控方面的代表,而且可以自由选用不同的大模型作为驱动,也是选用它作为调用模型的前端Agent的原因。

声明

对大模型能力的测试是复杂的系列工程,本文只是就在特定的、有限的任务下观察了两个产品的反应,不代表是模型整体综合能力的判定。

大家的测试感觉如何?有哪些好玩的测试任务也欢迎加笔者的个人微信一起交流分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值