数势科技率先适配Qwen3,发布对比Deepseek-R1测评报告!

全网首测! Qwen3 vs Deepseek-R1 数据分析哪家强?

今天凌晨,阿里巴巴开源新一代通义千问模型Qwen3,AI Agent厂商数势科技的数据分析智能体SwiftAgent已率先完成全面适配,并发布了Qwen3与DeepSeek-R1的测评报告,下面是具体评测内容,我们来看看在企业级的数据分析和智能决策场景上,Qwen3与DeepSeek-R1到底有哪些差异?

数据分析Agent深度测评总结

(声明: 本次测评主要针对Qwen3-32B和Qwen3-235B-A22B,对比Qwen2.5-72B和R1效果)

针对数据分析Data Agent,我们有如下关键节点(如图1),分别是改写,任务编排,工具选择和参数解析,工具运行和总结等。其中数据查询工具又涵盖了复杂的能力,例如如何将用户的查询语句解析成对应的语义层要素(时间,指标,维度,逻辑算子等)。不同节点的准确性对最终结果都会造成较大的影响。

图1:数据分析Agent流程概要

当前在落地的过程中,不同厂商针对其中节点的准确性优化基本都是三种手段,分别是提示词工程、RAG增强判断和模型微调等。这三种手段的实施成本是递进的,效果也不可控。因此,数势科技一直秉持积极拥抱最先进的开源大模型的原则,践行第一时间适配,以提高Agent产品的效果,降低交付中的实施成本。先说结论,在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面,Qwen3对比Qwen2.5有极大的效果提升,对比DeepSeek-R1模型也不遑多让,甚至在某些环节上还有意外的惊喜。成本上,根据阿里官方的报告,Qwen3模型在整体部署上成本极大地降低,进一步降低了各个企业部署和使用的门槛。

本次,数势科技的SwiftAgent产品针对其中的不同节点,对Qwen3大模型进行整体测评,并对比以往模型的效果。

(1)上下文改写

Chat类产品首先接收的就是用户的输入语句,由于会话通常存在上下文干扰,以及用户的输入往往都是非标准的,因此我们必须对用户当次的输入语句进行改写判断,符合“优质进,优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写,让大模型判断用户问题的语境并进行改写的判断。

上下文改写

Qwen2.5-72b

DeepSeek-R1

Qwen3-32B

Qwen3-235B-A22B

上轮:上两个季度的员工总收入是多少?

本轮:这两个季度的员工总收入是多少?

上两个季度的员工总收入是多少

上两个季度的员工总收入是多少

查询这两个季度的员工总收入

查询上两个季度的员工总收入

上轮:查询2023年6月的员工总收入?

本轮:上个月的呢?

查询2023年5月的员工总收入

查询员工上个月的总收入

查询上个月的员工总收入

查询上个月的员工总收入?

上轮:德国XXX品牌昨日的库存?

本轮:德国XXX品牌昨日的inv?

德国XXX品牌昨日的库存

德国XXX品牌昨日的库存

德国XXX品牌昨日的库存

德国XXX品牌昨日的库存

总结:针对Case1的语境,不应该进行改写,出乎意料的只有Qwen3-32B回答准确;针对Case2,由于本轮提问的语境是绝对时间,Qwen2.5-72B会基于上轮时间进行推理,对本轮Query进行改写,其他模型则理解语境不会判断成改写。针对Case3,INV代表“当日库存量”的缩写,当大模型不理解该术语时,会擅自继承上轮内容并改写本轮Query,4个模型均没办法正确回答。

(2)任务编排和工具调用

任务编排

Qwen2.5-72b

DeepSeek-R1

Qwen3-32B

Qwen3-235B-A22B

今年每周超过20单的门店有哪些,这些店中top5是哪些,分析一下他们的单量上升/下降的原因

1.查询今年每周订单量超过20单的门店

2. 从查询结果中选取订单量最高的前5个门店

3. 对这5个门店的订单量上升或下降的原因进行归因分析

1. 查询今年每周超过20单的门店列表

2. 从符合条件的门店中筛选出订单量top5的门店

3. 对top5门店的订单量进行指标归因分析

1. 查询今年每周订单量超过20单的门店列表

2. 从上述门店中取订单量top5门店

3. 对top5门店的单量变化进行归因分析

1. 查询今年每周超过20单的门店数据

2. 从符合条件的门店中筛选出订单量top5的门店

3. 对top5门店的单量变化进行归因分析

2024年第三季度的每一天里,对于每个城市,订单量最大的是哪一天?

查询2024年第三季度每个城市订单量最大的日期

1. 查询2024年第三季度各城市每日订单量数据

2. 按城市分组并找出每个城市订单量最大的日期

1. 查询2024年第三季度每个城市每天的订单量

2. 处理数据以确定每个城市订单量最大的日期

1. 查询2024年第三季度每天的每个城市的订单量

2. 找出每个城市订单量最大的那一天

请分析2024年各季度我们平台的销售额和订单量变化,并对比618和双十一促销活动期间的表现。用图表展示这些数据的趋势,并找出销售增长的主要驱动因素是什么。特别是关注新客户增长和复购率的变化。

1. 查询2024年各季度的销售额和订单量

2. 查询618和双十一促销活动期间的销售额和订单量

3. 查询2024年各季度的新客户增长和复购率

4. 数据可视化展示销售额、订单量、新客户增长和复购率的趋势

5. 分析销售增长的主要驱动因素

1.查询2024年各季度销售额和订单量数据

2. 查询2024年618和双十一促销期间的销售额和订单量数据

3.查询新客户数量和复购率数据

4. 数据可视化展示季度趋势及促销期间对比

5. 调用指标归因插件分析销售增长驱动因素

1.查询2024年各季度销售额和订单量数据

2. 查询2024年618和双十一促销期间的销售额和订单量数据

3.查询新客户数量和复购率数据

4. 数据可视化展示季度趋势及促销期间对比

5. 调用指标归因插件分析销售增长驱动因素

1. 查询2024年各季度的销售额、订单量、新客户数和复购率

2. 查询618和双十一促销期间的对应指标数据

3. 数据可视化展示季度和促销期的趋势对比

4. 执行指标归因分析定位增长驱动因素

总结:Qwen2.5-72B在数据分析任务拆解和工具调用选择上,均落后于其它三个模型。其中,Case2中我们期望通过子任务的拆解执行提高最终结果生成的准确性,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表现优秀,Qwen2.5-72B无法成功拆解相应任务,Case3中,Qwen2.5-72B在第5步任务中无法识别到应该调用归因分析工具,其它三个模型均能做到。可见Qwen3-32B做到了成本下降了,效果反而更好了。

(3)数据查询

数据要素解析中,对时间要素的识别往往是较难的,因为时间是带动态更新和逻辑推理特性的。例如:“我行销售额较去年增加多少”是时间的隐性推理,实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解,以及周的开始和结束时间推理识别等。

时间识别

Qwen2.5-72b

DeepSeek-R1

Qwen3-32B

Qwen3-235B-A22B

隐性时间推理:我行较去年增加多少

'time_span': [{'beginTime': '', 'endTime': ''}], 'times': ['2024']

'time_span': [{'beginTime': '2024-01-01', 'endTime': '2024-12-31'}, {'beginTime': '2025-01-01', 'endTime': '2025-04-28'}], 'times': []

'time_span': [{'beginTime': '2024-01-01', 'endTime': '2024-12-31'}, {'beginTime': ''2025-01-01', 'endTime': '2025-04-28'}],'times': []

'time_span':[{'beginTime': '2024-01-01', 'endTime': '2024-12-31'},{'beginTime': '2025-01-01', 'endTime': '2025-04-28'}],'times': []

相对时间和绝对时间理解:帮我看一下1月5号对比过去三个月的销售额

'time_span': [{'beginTime': '2024-10-01', 'endTime': '2025-01-05'}], 'times': ['2025-01-05']

{'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}], 'times': []

'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}],'times': []

'time_span': [{'beginTime': '2025-01-05', 'endTime': '2025-01-05'}, {'beginTime': '2025-01-29', 'endTime': '2025-04-28'}],'times': []

周的起止时间推理:帮我看一下上周的销售额是多少"

'time_span': [{'beginTime': '2025-04-22', 'endTime': '2025-04-28'}],'times': []

'time_span': [{'beginTime': '2025-04-21', 'endTime': '2025-04-27'}], 'times': []

'time_span': [{'beginTime': '2025-04-21', 'endTime': '2025-04-27'}],'times': []

'time_span': ['beginTime': '2025-04-21', 'endTime': '2025-04-27'}],'times': []

总结:在这三种时间难例Case下,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均领先于Qwen2.5-72B,其中Qwen3-32B的效果已经完全接近R1的识别效果。

数据要素解析中,对实体的抽取也是要素匹配的一个前提条件,实体抽取的质量好坏会干扰后面要素匹配的效果,针对以往的难例case,不同模型的测试情况如下:

实体识别

Qwen2.5-72b

DeepSeek-R1

Qwen3-32B

Qwen3-235B-A22B

帮我查询上个季度期间各个消费场景的信用卡消费金额数据

{'指标': ['信用卡消费金额'],  '维度': ['信用卡消费场景'], '维值': [], '时间': ['上个季度期间']}

{'指标': ['信用卡消费金额'], '维度': [], '维值': [], '时间': ['上个季度期间']}

{'指标': ['信用卡消费金额'], '维度': ['消费场景'], '维值': [], '时间': ['上个季度']}

{'指标': ['信用卡消费金额'],  '维度': ['消费场景'], '维值': ['消费'], '时间': ['上个季度']}

我想看看最近三个月的收入、金额、员工交易情况

{'指标': ['收入', '金额', '交易情况'], '维度': [], '维值': [], '时间': ['最近三个月']}

{'指标': ['收入', '金额', '员工交易情况'],  '维度': [], '维值': [], '时间': ['最近三个月']}

{'指标': ['收入', '金额', '员工交易情况'],  '维度': [], '维值': [], '时间': ['最近三个月']}

{'指标': ['收入', '金额', '交易'],  '维度': ['员工'], '维值': [], '时间': ['最近三个月']}

看看今年每个月各个渠道类型下,每个渠道的净销售额排行

{'指标': ['净销售额'],  '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']}

{'指标': ['净销售额'],  '维度': [], '维值': [], '时间': ['今年每个月']}

{'指标': ['净销售额'], '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']}

{'指标': ['净销售额'],  '维度': ['渠道类型', '渠道'], '维值': [], '时间': ['今年每个月']}

总结:DeepSeek-R1和Qwen3-32B在Case1和Case2的效果优于其他模型,然而DeepSeek-R1在Case3上漏识别了维度,总体来看,实体语义识别的效果差距不大,反而Qwen3-32B的Dense模型效果要优于其他模型。

(4)图表生成

本次评测中,我们采用Echart图表生成的方式来验证不同模型基于数据的理解后,生成并渲染图表的效果

总结:Qwen72B对于数据理解和代码生成的能力弱于Qwen3-32B, Case2和Case3中甚至出现了数据遗漏的现象。此外,Qwen3-32B在渲染排版上略逊色于Qwen3-235B-A22B和DeepSeek-R1模型。

(5)总结反思

这里,我们测试了针对生成的错误代码,大模型是否可以结合错误反思并生成准确的代码。

总结:原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后,Qwen2.5-72B选择直接丢弃不符合数值格式的数据,虽然能够跑通,但并不是数据预处理时的最佳选择,优化了潜在的空列表错误。DeepSeek-R1对数据进行了强制转换,但传入无法强制转换的类型时,依旧会报错,且并未解决潜在的空列表错误。Qwen3的两个模型对数据类型做了最符合预期地处理,优先尝试转换为数值,无法强制转换才选择抛弃,但同样并未解决潜在的空列表错误。关于潜在的空列表错误,在二次提示优化后,四个模型均给出优化方案,达到预期。

此外,我们还测了一些其他和数据分析相关的大模型能力,例如数学推理计算能力,我们从网上借鉴了一些数学测试题,先说结论,DeepSeek-R1模型Qwen3-235B-A22B在数学计算推理能力上要优于另外两种模型,符合Scale Law的认知。

具体来说,Case1中,DeepSeek-R1模型Qwen3-235B-A22B均回答正确,其他两个模型回答错误。Case2和Case3中所有模型均回答准确。

综上所述,在数据分析Agent构建方面,Qwen3模型的发布对于Agent的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面,Qwen3模型都表现较为出色,其中Qwen3-32B模型也远优于上一代模型,甚至接近于DeepSeek-R1模型,且部署成本更低,消费级显卡即可实现推理自由,对企业使用大模型来说,是重大的利好。

在Qwen3模型发布的首日,数势科技SwiftAgent率先完成了对Qwen3的全面适配,并对Agent的中间环节进行了能力升级和创新性功能开发,为企业客户构建AI驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值