尺寸差了一个量级,如何较量?DeepSeek R1与阿里QwQ-32B

尺寸差了一个量级,如何较量?DeepSeek R1与阿里QwQ-32B

原创 亲爱的数据 亲爱的数据
2025年03月07日 12:01 北京

图片

原创:亲爱的数据

2025年3月6日,

阿里通义千问团队推出推理模型

QwQ-32B大语言模型。

看似普通的一则新闻,

发布了一个模型这么件事。

阿里尚未发布详细的技术报告来解释 QwQ是如何开发的,甚至新闻官网只有742个字。

《QwQ-32B:拥抱强化学习的力量》

图片

图片

该怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又称密集)推理模型。

虽然只有一句话,但是信息量很大。

想读懂的话,要很多“知识储备”,

什么是MoE(混合专家模型)?

什么是稠密模型?

什么是推理模型?

模型参数规模怎么对比?

背后隐藏的不少问题都可展开聊,

不如,聊聊有哪些结论?

图片

图片

第一点,QWQ模型有一个系列,

阿里在上一版的基础上,

用了R1也同样用了的强化学习技术。

好消息是出效果了,不出效果不会放出来。

毕竟这个是开源模型,

只有闭源模型才愿意买广告胡吹,

开源模型则不需要。

反观很多大模型友商,

还停留在花钱买彩虹屁的石器时代。

在开源打得如此激烈的当下,显得尤为又自嗨。

抛开“强不强”不聊,

要知道大模型技术人员的知识体系泾渭分明,

你是做视觉的,就是视觉;

你是自然语言处理的就是自然语言处理,

而强化学习是另外一套知识体系。

强化学习这条道路,

大模型团队里没有点技术储备都发不了力。

阿里毕竟是阿里,

看到强化学习的天花板还能往上推,

就毫不犹豫地往上推。

恭喜阿里出效果,恭喜团队奋战有成绩。

无独有偶,一天之前,

2024 年的图灵奖颁给了一对著名的师徒:

Richard Sutton 有“强化学习之父”的美名。

Andrew Barto是 Sutton的博导。

自 1980 年代起,

两位均对强化学习持续做出奠基性贡献。

一边是企业界的前沿技术突破,

另一边则是对强化学习理论基础的权威认可。

这两者实际上是相辅相成的,

正是几十年前奠定的坚实理论基础,

才使得今天我们能够在工业界实现如此惊人的技术突破。向强化学习开创者的致敬,向DeepSeek R1团队,向阿里千问团队,用强化学习推动模型技术进步的工程师致敬。

图片

图片

第二点,在推理模型大火之后,

大家都只做推理模型这一种类型了吗?

当然不是。

这里就不得不把Claude 3.7 Sonnet这个模型拉出来对比一下。

这也是一个刚刚(2月25日)放出来的新模型,

是Claude 3.5 Sonnet 的升级版。

不得不感慨一句,版本号增长得如此之快,

可见软件版本迭代得多快,

可见其背后的技术进展有多快。

AI的竞争有多激烈。

图片

图片

我特别强调,Claude 3.7 Sonnet模型的技术路线,

和QwQ-32B模型大不一样,完全不同。

QwQ-32B模型强调推理性能,

是一个独立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude团队把快慢思考集成在一个模型里了

你想用哪个就选哪个。

图片

特别注意的是,

选择按钮的背后是一个“二合一”的模型

而不是一个“选项”一个模型,

技术博客上的表述是,人类使用同一个大脑,

既能静心思考,又有快速反应。

阿里是否也在做和Claude 团队类似的事情,

不得而知。

但是你用推理模型去快问快答简单问题,

肯定不合适,

比如,你问推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面这种肯定不行,

日后定会想办法解决。

图片

图片

第三点,为什么QWQ-32B可达到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一个量级的情况下。

在MoE模型出道之后,

模型参数规模不再是名字上挂的那个数字,

比如,DeepSeek R1拥有6710亿的巨大的参数量,但由于创新性地使用了MoE架构,以及MLA(多头潜在注意力机制)的方法,每次推理仅激活370亿参数(占比总量6%)。这使得DeepSeek R1虽然整体参数量很大,但干活时只需要动用极小的一部分力量。

MoE模型是稀疏模型,

也就是说,并不是每个计算步骤都会用到全部的模型参数,而是通过选取一些专家来参与计算。就好比,有一个专家库,但是每次干活不是专家库里的专家全体出动。

DeepSeek R1的惊人之处在于,

1个共享专家和256个专家,

实际上,历史上,哪个MoE模型也从来没有过达到如此庞大的专家数量。专家多了一时爽,那就问负载均衡怎么办?

图片

当然DeepSeek处理得很好,

但是这篇文章不聊这个,按下不表。

DeepSeek每次通过路由专家,只选8个模型,

也就是说只有8个专家干活了,其他闲着。

那么问题来了,你统计工作量的时候,

是不是只算这8个(仅激活370亿参数)就够了。

于是,真正用来比较的,

是千问QWQ-32B和DeepSeek R1模型的37B。

“闲置专家”不在考虑范围内。

比模型整个的参数规模更难理解的是真正“参与工作”的参数,这个问题确实是伴随着MoE模型而出现的,从激活量来看,32B(320亿参数)比37B(370亿参数)少不了多少,这是一种进步。

激活量少了,随之而来的是,成本降低,性价比提高。另有一个关键点,阿里通义千问团队的这个模型是每个专家每次都在干活,而DeepSeek R1模型是每次干活是不同的专家。因为MoE的大参数量可不是吃白饭的,

MoE的全量大参数对模型能力极有加成,对于每个token激活的是不同的37B(370亿参数)这个时候,我想说,QWQ-32B的专家还挺能打的,毕竟DeepSeek R1模型的整体专家数量在这里摆着,长期干活的专家要会更多知识才能和擅长不同的更细分的领域的“当值专家”一较高下。

看到这里,我挺激动的,再次为千问团队高兴。

而我更高兴的是,DeepSeek最大的价值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

这个问题的答案得问DeepSeek,

他们将MoE技术拉到一个新高度,

又在分布式计算,通信库等底层基础设施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利润率545%

每秒输出吞吐量约1.5tokens

(官宣数据14.8k tokens/s)。

我最近聊天的口头禅就是:

“人家DeepSeek每秒输出吞吐一万五,

友商吞吐原地杵。

一万五是一次综合实力的大检阅。

数字这么好看,这真是一件好事,

整个系统的吞吐量越大越好,

问题在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

问题在于怎么榨干。

一个模型在某种型号的芯片上跑起来,

这个系统的总吞吐量的理论峰值,

是由芯片性能决定的。

芯片性能是上限,

也是工程团队竭尽全力接近的目标。

做出极高的总吞吐量,梦寐以求。

也就是说,有N个厂商,

每个都跑同样的DeepSeek R1模型,

每个厂商都用同样数量的芯片,

谁做到的总吞吐量最高,谁就最赚钱。

这门生意本质就是这点了。

对比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于为何是10倍,得拿另外一篇文章来讲。

有兴趣的读者,请在文末留言扣数字1。

阿里千问团队也有MoE模型的经验。

或者这么说,DeepSeek的基础设施是为MOE设计的,效率非常之高,给谁一时都很难超越,不如在自己擅长的技术路线上发展。那天,我和武汉人工智能研究院王金桥院长一起吃拉面,他还给我科普:“MoE(稀疏)模型适合大型To C业务量,Dense(稠密)适合To B业务量。

阿里选择稠密模型的理由非常充分,

云计算厂商就是服务To B业务的。

一周之后,DeepSeek就搞了开源周,

不得不说,慷慨开源很多MoE底层技术,

商业机密肯定还有很多。

我所知道的是,

稀疏和稠密是两种完全不同的技术路线,

榨干芯片性能的方法完全不一样,

把稠密技术路线调为MoE稀疏技术路线谈何容易。

当DeepSeek横空出世,不只是模型

而是模型带着它的榨干芯片性能的全套方案一起横空出世,这可是MoE专属方案。

这时,有一个选择题摆在大模型厂商面前,

在致敬和学习之后,也要做MoE模型吗?

这个问题我特别想问千问团队的人,

无奈周靖人把团队看得太严了。

此时,我想,他们已经给我答案了。

我们回忆一下,在DeepSeek爆火之前,

通义千问72B横扫企业级市场,

无论中国,还是美国,头部科技大厂内部都在悄悄用通义千问72B。阿里千问团队和美国Meta公司(Llama)选择同一种开源市场策略。

面对令人尊敬的挑战者,

阿里交出了自己的答卷。

竞争还在继续。

图片

(完)

### DeepSeek-R1-Distill-Qwen-32B 模型介绍 DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 进行蒸馏得到的小规模密集模型之一。该模型通过从大型预训练模型 DeepSeek-R1 中提取知识,显著提升了推理能力和性能表现[^1]。 在开发过程中,研究人员选择了 Qwen2.5-32B 作为基础模型,并直接从 DeepSeek-R1 进行了知识蒸馏。实验结果显示,在多个基准测试中,这种直接蒸馏的方法比使用强化学习优化后的效果更好,表明大模型所发现的推理模式对于提升小模型的能力非常重要[^2]。 ### 性能比较:DeepSeek-R1-Distill-Qwen-32B vs. 14B 版本 研究表明,经过精心设计的知识蒸馏过程后,即使是参数量较少的模型也能达到甚至超过更大规模模型的表现: - **14B 模型**:蒸馏后的 14B 模型大幅超越了当时最先进水平的开源 QwQ-32B-Preview (Qwen, 2024a),显示出强大的竞争力。 - **32B 和 70B 模型**:这些更大的蒸馏版模型不仅保持住了原有优势,还在密集模型中的推理基准上创下了新纪录。特别是 DeepSeek-R1-Distill-Qwen-32B,在某些特定任务上的成绩尤为突出,例如 AIME 2024 数学竞赛方面超过了 GPT-4o 和 Claude 3.5 的表现[^3]。 综上所述,虽然 32B 版本拥有更多的参数数量,但在实际应用场景下两者之间的距可能取决于具体任务需求;而就整体而言,32B 版本确实展现出了更强的整体实力和更广泛的应用潜力。 ```python # 示例代码展示如何加载并评估两个不同大小的模型 import torch from transformers import AutoModelForCausalLM, AutoTokenizer def evaluate_model(model_name): tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "Evaluate this math problem:" inputs = tokenizer(input_text, return_tensors="pt") with torch.no_grad(): outputs = model.generate(**inputs, max_length=50) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"Result from {model_name}: ", result) evaluate_model('DeepSeek-R1-Distill-Qwen-14B') evaluate_model('DeepSeek-R1-Distill-Qwen-32B') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值