全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?
今天凌晨,阿里巴巴开源新一代通义千问模型Qwen3,AI Agent厂商数势科技的数据分析智能体SwiftAgent已率先完成全面适配,并发布了Qwen3与DeepSeek-R1的测评报告,下面是具体评测内容,我们来看看在企业级的数据分析和智能决策场景上,Qwen3与DeepSeek-R1到底有哪些差异?
数据分析Agent深度测评总结
(声明: 本次测评主要针对Qwen3-32B和Qwen3-235B-A22B,对比Qwen2.5-72B和R1效果)
针对数据分析Data Agent,我们有如下关键节点(如图1),分别是改写,任务编排,工具选择和参数解析,工具运行和总结等。其中数据查询工具又涵盖了复杂的能力,例如如何将用户的查询语句解析成对应的语义层要素(时间,指标,维度,逻辑算子等)。不同节点的准确性对最终结果都会造成较大的影响。
图1:数据分析Agent流程概要
当前在落地的过程中,不同厂商针对其中节点的准确性优化基本都是三种手段,分别是提示词工程、RAG增强判断和模型微调等。这三种手段的实施成本是递进的,效果也不可控。因此,数势科技一直秉持积极拥抱最先进的开源大模型的原则,践行第一时间适配,以提高Agent产品的效果,降低交付中的实施成本。先说结论,在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面,Qwen3对比Qwen2.5有极大的效果提升,对比DeepSeek-R1模型也不遑多让,甚至在某些环节上还有意外的惊喜。成本上,根据阿里官方的报告,Qwen3模型在整体部署上成本极大地降低,进一步降低了各个企业部署和使用的门槛。
本次,数势科技的SwiftAgent产品针对其中的不同节点,对Qwen3大模型进行整体测评,并对比以往模型的效果。
(1)上下文改写
Chat类产品首先接收的就是用户的输入语句,由于会话通常存在上下文干扰,以及用户的输入往往都是非标准的,因此我们必须对用户当次的输入语句进行改写判断,符合“优质进,优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写,让大模型判断用户问题的语境并进行改写的判断。
上下文改写 | Qwen2.5-72b | DeepSeek-R1 | Qwen3-32B | Qwen3-235B-A22B |
上轮:上两个季度的员工总收入是多少? 本轮:这两个季度的员工总收入是多少? | 上两个季度的员工总收入是多少 | 上两个季度的员工总收入是多少 | 查询这两个季度的员工总收入 | 查询上两个季度的员工总收入 |
上轮:查询2023年6月的员工总收入? 本轮:上个月的呢? | 查询2023年5月的员工总收入 | 查询员工上个月的总收入 | 查询上个月的员工总收入 | 查询上个月的员工总收入? |
上轮:德国XXX品牌昨日的库存? 本轮:德国XXX品牌昨日的inv? | 德国XXX品牌昨日的库存 | 德国XXX品牌昨日的库存 | 德国XXX品牌昨日的库存 | 德国XXX品牌昨日的库存 |
总结:针对Case1的语境,不应该进行改写,出乎意料的只有Qwen3-32B回答准确;针对Case2,由于本轮提问的语境是绝对时间,Qwen2.5-72B会基于上轮时间进行推理,对本轮Query进行改写,其他模型则理解语境不会判断成改写。针对Case3,INV代表“当日库存量”的缩写,当大模型不理解该术语时,会擅自继承上轮内容并改写本轮Query,4个模型均没办法正确回答。
(2)任务编排和工具调用
任务编排 | Qwen2.5-72b | DeepSeek-R1 | Qwen3-32B | Qwen3-235B-A22B |
今年每周超过20单的门店有哪些,这些店中top5是哪些,分析一下他们的单量上升/下降的原因 | 1.查询今年每周订单量超过20单的门店 2. 从查询结果中选取订单量最高的前5个门店 3. 对这5个门店的订单量上升或下降的原因进行归因分析 | 1. 查询今年每周超过20单的门店列表 2. 从符合条件的门店中筛选出订单量top5的门店 3. 对top5门店的订单量进行指标归因分析 | 1. 查询今年每周订单量超过20单的门店列表 2. 从上述门店中取订单量top5门店 3. 对top5门店的单量变化进行归因分析 | 1. 查询今年每周超过20单的门店数据 2. 从符合条件的门店中筛选出订单量top5的门店 3. 对top5门店的单量变化进行归因分析 |
2024年第三季度的每一天里,对于每个城市,订单量最大的是哪一天? | 查询2024年第三季度每个城市订单量最大的日期 | 1. 查询2024年第三季度各城市每日订单量数据 2. 按城市分组并找出每个城市订单量最大的日期 | 1. 查询2024年第三季度每个城市每天的订单量 2. 处理数据以确定每个城市订单量最大的日期 | 1. 查询2024年第三季度每天的每个城市的订单量 2. 找出每个城市订单量最大的那一天 |
请分析2024年各季度我们平台的销售额和订单量变化,并对比618和双十一促销活动期间的表现。用图表展示这些数据的趋势,并找出销售增长的主要驱动因素是什么。特别是关注新客户增长和复购率的变化。 | 1. 查询2024年各季度的销售额和订单量 2. 查询618和双十一促销活动期间的销售额和订单量 3. 查询2024年各季度的新客户增长和复购率 4. 数据可视化展示销售额、订单量、新客户增长和复购率的趋势 5. 分析销售增长的主要驱动因素 | 1.查询2024年各季度销售额和订单量数据 2. 查询2024年618和双十一促销期间的销售额和订单量数据 3.查询新客户数量和复购率数据 4. 数据可视化展示季度趋势及促销期间对比 5. 调用指标归因插件分析销售增长驱动因素 | 1.查询2024年各季度销售额和订单量数据 2. 查询2024年618和双十一促销期间的销售额和订单量数据 3.查询新客户数量和复购率数据 4. 数据可视化展示季度趋势及促销期间对比 5. 调用指标归因插件分析销售增长驱动因素 | 1. 查询2024年各季度的销售额、订单量、新客户数和复购率 2. 查询618和双十一促销期间的对应指标数据 3. 数据可视化展示季度和促销期的趋势对比 4. 执行指标归因分析定位增长驱动因素 |
总结:Qwen2.5-72B在数据分析任务拆解和工具调用选择上,均落后于其它三个模型。其中,Case2中我们期望通过子任务的拆解执行提高最终结果生成的准确性,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表现优秀,Qwen2.5-72B无法成功拆解相应任务,Case3中,Qwen2.5-72B在第5步任务中无法识别到应该调用归因分析工具,其它三个模型均能做到。可见Qwen3-32B做到了成本下降了,效果反而更好了。
(3)数据查询
数据要素解析中,对时间要素的识别往往是较难的,因为时间是带动态更新和逻辑推理特性的。例如:“我行销售额较去年增加多少”是时间的隐性推理,实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解,以及周的开始和结束时间推理识别等。
时间识别 | Qwen2.5-72b | DeepSeek-R1 | Qwen3-32B | Qwen3-235B-A22B |
隐性时间推理:我行较去年增加多少 | 'time_span': [{'beginTime': '', 'endTime': ''}], 'times': ['2024'] | 'time_span': [{'beginTime': '2024-01-01', 'endTime': '2024-12-31'}, {'beginTime': '2025-01-01', 'endTime': '2025-04-28'}], 'times': [] | 'time_span': [{'beginTime': '2024-01-01', 'endTime': '2024-12-31'}, {'beginTime': ''2025-01-01', 'endTime': '2025-04-28'}],'times': [] | 'time_span':[{'beginTime': '2024-01-01', 'endTime': '2024-12-31'},{'beginTime': '2025-01-01', 'endTime': '2025-04-28'}],'times': [] |
相对时间和绝对时间理解:帮我看一下1月5号对比过去三个月的销售额 | 'time_span': [{'beginTime': '2024-10-01', 'endTime': '2025-01-05'}], 'times': ['2025-01-05'] | {'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}], 'times': [] | 'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}],'times': [] | 'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}],'times': [] |
周的起止时间推理:帮我看一下上周的销售额是多少" | 'time_span': [{'beginTime': '2025-04-22', 'endTime': '2025-04-28'}],'times': [] | 'time_span': [{'beginTime': '2025-04-21', 'endTime': '2025-04-27'}], 'times': [] | 'time_span': [{'beginTime': '2025-04-21', 'endTime': '2025-04-27'}],'times': [] | 'time_span': ['beginTime': '2025-04-21', 'endTime': '2025-04-27'}],'times': [] |
总结:在这三种时间难例Case下,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均领先于Qwen2.5-72B,其中Qwen3-32B的效果已经完全接近R1的识别效果。
数据要素解析中,对实体的抽取也是要素匹配的一个前提条件,实体抽取的质量好坏会干扰后面要素匹配的效果,针对以往的难例case,不同模型的测试情况如下:
实体识别 | Qwen2.5-72b | DeepSeek-R1 | Qwen3-32B | Qwen3-235B-A22B |
帮我查询上个季度期间各个消费场景的信用卡消费金额数据 | {'指标': ['信用卡消费金额'], '维度': ['信用卡消费场景'], '维值': [], '时间': ['上个季度期间']} | {'指标': ['信用卡消费金额'], '维度': [], '维值': [], '时间': ['上个季度期间']} | {'指标': ['信用卡消费金额'], '维度': ['消费场景'], '维值': [], '时间': ['上个季度']} | {'指标': ['信用卡消费金额'], '维度': ['消费场景'], '维值': ['消费'], '时间': ['上个季度']} |
我想看看最近三个月的收入、金额、员工交易情况 | {'指标': ['收入', '金额', '交易情况'], '维度': [], '维值': [], '时间': ['最近三个月']} | {'指标': ['收入', '金额', '员工交易情况'], '维度': [], '维值': [], '时间': ['最近三个月']} | {'指标': ['收入', '金额', '员工交易情况'], '维度': [], '维值': [], '时间': ['最近三个月']} | {'指标': ['收入', '金额', '交易'], '维度': ['员工'], '维值': [], '时间': ['最近三个月']} |
看看今年每个月各个渠道类型下,每个渠道的净销售额排行 | {'指标': ['净销售额'], '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']} | {'指标': ['净销售额'], '维度': [], '维值': [], '时间': ['今年每个月']} | {'指标': ['净销售额'], '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']} | {'指标': ['净销售额'], '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']} |
总结:DeepSeek-R1和Qwen3-32B在Case1和Case2的效果优于其他模型,然而DeepSeek-R1在Case3上漏识别了维度,总体来看,实体语义识别的效果差距不大,反而Qwen3-32B的Dense模型效果要优于其他模型。
(4)图表生成
本次评测中,我们采用Echart图表生成的方式来验证不同模型基于数据的理解后,生成并渲染图表的效果
总结:Qwen72B对于数据理解和代码生成的能力弱于Qwen3-32B, Case2和Case3中甚至出现了数据遗漏的现象。此外,Qwen3-32B在渲染排版上略逊色于Qwen3-235B-A22B和DeepSeek-R1模型。
(5)总结反思
这里,我们测试了针对生成的错误代码,大模型是否可以结合错误反思并生成准确的代码。
总结:原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后,Qwen2.5-72B选择直接丢弃不符合数值格式的数据,虽然能够跑通,但并不是数据预处理时的最佳选择,优化了潜在的空列表错误。DeepSeek-R1对数据进行了强制转换,但传入无法强制转换的类型时,依旧会报错,且并未解决潜在的空列表错误。Qwen3的两个模型对数据类型做了最符合预期地处理,优先尝试转换为数值,无法强制转换才选择抛弃,但同样并未解决潜在的空列表错误。关于潜在的空列表错误,在二次提示优化后,四个模型均给出优化方案,达到预期。
此外,我们还测了一些其他和数据分析相关的大模型能力,例如数学推理计算能力,我们从网上借鉴了一些数学测试题,先说结论,DeepSeek-R1模型和Qwen3-235B-A22B在数学计算推理能力上要优于另外两种模型,符合Scale Law的认知。
具体来说,Case1中,DeepSeek-R1模型和Qwen3-235B-A22B均回答正确,其他两个模型回答错误。Case2和Case3中所有模型均回答准确。
综上所述,在数据分析Agent构建方面,Qwen3模型的发布对于Agent的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面,Qwen3模型都表现较为出色,其中Qwen3-32B模型也远优于上一代模型,甚至接近于DeepSeek-R1模型,且部署成本更低,消费级显卡即可实现推理自由,对企业使用大模型来说,是重大的利好。
在Qwen3模型发布的首日,数势科技SwiftAgent率先完成了对Qwen3的全面适配,并对Agent的中间环节进行了能力升级和创新性功能开发,为企业客户构建AI驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。