今天Qwen 3的发布燃爆朋友圈,笔者也第一时间进行了测试。测试的场景为用一个同样的Agent去调用两个不同的模型,同样的任务,看两个模型对任务的完成情况。
选用的Agent:
AiPy(主打Python-use范式,本机操作场景,可以考验大模型对本机交互使用的情况)
选用的对比模型:
Qwen3、 DeepSeekV0324
测试用例:
分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)
帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件读写能力)
打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)
从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)
我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)
先说结果:
5个任务成功率:
qwen3:25%,deepseek:70% qwen3失败原因:未按指示约定依然生成模拟数据、未按原始指定打开画图软件、未生成分析图表、结果显示生成文件成功实际未生成; deepseek失败原因:未按指示约定依然生成模拟数据、代码截断问题、未执行任务。
整体体验
qwen3的api返回思考内容极少,经常只返回代码,没有分析,让用户无法分辨是在干什么,出现了什么问题,但速度相对快; deepseek返回思考内容和代码结合,阅读起来很容易,速度中等
对比详情
Qwen3
任务一:
分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)
任务结果:成功
不光正确的分析出来了结果,还给出了图片展示
任务二:
帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件保存能力)
任务结果:失败
三次获取信息失败后生产了模拟数据
任务三:
打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)
任务结果:失败
任务四:
从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)
任务结果:失败
生成的是假数据
任务五:
我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)
任务结果:失败
并没有生成数据图
DeepSeek
任务一:
分析一下我浏览器的收藏夹和历史访问记录,看看我是一个什么样的人?(测试对本机文件寻址和解读能力)
任务结果:失败
任务并没有被执行
任务二:
帮我推荐10个今天需要关注的股票,把他们的涨跌情况,做成漂亮的html报表写到"gp.html”(测试即时专业信息和文件保存能力)
任务结果:失败
API获取信息失败,最终给的是幻觉数据
任务三:
打开windows系统默认画图软件,控制我鼠标,帮我画一个身材优美的铅笔画女性。(测试对本机程序控制能力)
任务结果:成功
成功驱动本机画板程序,画的虽然不很美,哈哈
任务四:
从世界银行获取中国gdp最近60年数据,帮我分析关键转折点,最后帮我画一个折线图,标记关键转折点和原因。(测试深度数据查询和绘图能力)
任务结果:成功
数据和图都没问题
任务五:
我有一个10年的打卡记录csv表,有姓名 日期 上班时间 下班时间 几列。帮我生成一个1000人(帮我取下名字),从2020年至今的每个工作日的模拟测试数据。然后帮我统计10个奋斗者,和10个末尾淘汰建议人员,帮我画成柱状图。(测试语义理解和数据生成以及处理能力)
任务结果:成功
成功生成了数据并画出了柱状图
总结
五个任务Qwen 成功了1个,deepseek成功了3个。在这5个问题当中deepseek表现更优。
本次用的5个任务都偏向对本机的交互操作和数据的深度检索生成。因为基本的数据联网查询、知识问答彼此差不太多,不好观测其能力。A大模型在tool use、computer use 方面的能力更能凸显其深度能力,也就是考验大模型对本机计算机文件读写、程序的应用和控制的所在。本次测试所用的AiPy 就是主打工具调用、本机操控方面的代表,而且可以自由选用不同的大模型作为驱动,也是选用它作为调用模型的前端Agent的原因。
声明
对大模型能力的测试是复杂的系列工程,本文只是就在特定的、有限的任务下观察了两个产品的反应,不代表是模型整体综合能力的判定。
大家的测试感觉如何?有哪些好玩的测试任务也欢迎加笔者的个人微信一起交流分享。