Qwen爆改为DeepSeek，再复现R1！_qwen2.5 14b与deepseek r1 14b-CSDN博客

本文链接：https://blog.csdn.net/m0_70486148/article/details/145701709

对于目前很火的Deepseek，最近有准备LLM面试的学员问需要重点掌握哪些东西，给大家的建议是这块最重要的是deepseek v3和r1的技术报告，建议大家去精读一下，其中MLA注意力，MTP，GRPO，冷启动数据，这些是重点。

前言

Deepseek使用更低的成本追赶OpenAI的效果

关注Deepseek也有一年多了，当时Mixtral-8x7B模型刚出来，我写了一篇分析其MoE架构的文章。

Deepseek不久后推出了他们第一版Deepseek MoE模型，他们的工作人员看到文章加了我的微信；

在做PiSSA[1]的时候，我就将Deepseek MoE视为主流模型进行了实验对比；

在Deepseek V2出来后，MLA架构巧妙地设计吸引了我。启发我做出CLOVER[2]这篇文章。

MLA中存在一个absorb操作，能将Key Weight吸收到Query Weight中，Value Weight吸收到Output Weight中，缺点是合并后参数量会变大。

CLOVER先合并再分解，不改变模型结构就能得到正交的注意力头，对剪枝和微调都有很大的好处；

随着Deepseek V3/R1彻底爆火，我也来添一把火：

https://huggingface.co/papers/2502.07864``https://github.com/fxmeng/TransMLA

本文理论证明了，在同等KV Cache开销下，MLA的表达能力始终大于GQA的能力，并通过实验验证这一优势。

本文提出一种TransMLA的方法，能将目前主流模型如LLaMA-3，Qwen-2.5等模型中的GQA统统等价变换为能力更强的MLA。

本文将会使用改造后的模型复现R1的能力。此外还会探索MoE，MTP结构，混合精度量化训练，训练推理加速等技术。

希望能推动基于GQA模型向MLA模型的过渡，帮助初学者了解Deepseek使用的技术，以及给大模型厂商提供一个低成本迁移模型架构的方案。

TransMLA方法

本节首先提出以下定理：

定理1：当KV Cache大小相同时，MLA的表达能力大于GQA。

证明：通过接下来的1）2）3）节，我们论证了任何GQA都可以等价转换为具有相同KV Cache大小的MLA形式。在第4）节中，存在MLA无法通过GQA表示的情况。从而完成定理1的证明。

Group Query Attention (GQA)

1）GQA形式，复制Key-Value

上图展示了分组注意力（GQA）的典型结构。在GQA中，被拆分成个头，每个头的维度为。

为了减少Key和Value的数量，被定义为具有个头（其中），每个头的维度为。

设为长度为T、隐藏维度为D的输入序列，为Key的投影矩阵。那么，

由于标准的多头注意力要求和（以及）具有相同数量的头，因此必须将从个头扩展到个头。定义复制因子。

将沿其列划分为个块，每个块对应一个头：, 其中每个块。

通过将每个复制s次并拼接，得到扩展后的矩阵：次次

Multi-Head Attention (MHA)

2）MHA形式，将复制操作移到参数侧

上图展示了一种使用多头注意力（MHA）替代GQA的方法，在计算之前，可以先复制投影矩阵。

首先，将沿其列划分为部分，其中每个对应Key中的一个原始的注意力头：

然后，将每个复制次，并按顺序拼接它们，形成新的投影矩阵：次次将应用于，直接得到这种方法在数学上等价于先计算，然后复制其头（GQA）。

3）MLA形式，低秩分解参数矩阵

上图展示了，它是通过复制形成的，最多有个自由度。因此，它的秩最多为。

为了更正式地理解这一点，使用奇异值分解（SVD）对进行分解：, 其中和是的正交矩阵，是的对角矩阵，包含奇异值。只有前（或更少）的奇异值可能是非零的。

因此，可以截断SVD，只保留前r个奇异值，其中：定义那么且

同样的方法也可以直接迁移到Value的变换上，这里不再展开讨论。

其中在缓存Key和Value矩阵时，只需要存储低秩表示和。

在实际的注意力计算中，可以通过与和相乘来“扩展”表示，从而恢复全维度并增强表达能力。

4）存在MLA无法被GQA表示的情况

考虑一种情况，其中中的向量是正交的。在这种情况下，乘以与后，每个通道的输出在通道间保持不同。

然而，在GQA中，每组内的头是复制的，这意味着组内所有头的输出是相同的。

这种结构差异意味着某些MLA的情况无法被GQA表示，因为MLA允许在各个通道之间有更大的输出多样性。

基于上述分析，我们证明了定理1。通过将GQA转化为等效的MLA表示，我们可以增强模型的表达能力。接下来的章节将展示实验结果，以验证这一结论。

实验效果

我们以Qwen2.5为例，展示如何将一个基于GQA的模型转换为MLA模型，并对比转换前后的模型在下游任务中的训练效果。

Qwen2.5-7B模型的每一层包含28个Query头和4个Key/Value头，每个头的维度为128，KV Cache的维度为1024。

Qwen2.5-14B模型的每一层包含40个Query头和8个Key/Value头，每个头的维度为128，KV Cache的维度为2048。

在将Qwen2.5-7B模型转换为MLA模型后，和的输出维度都被调整为512，KV Cache的维度依然保持为1024。

与GQA模型的设置不同，在TransMLA中，和将512维的特征升维至维。

由于28个Query头可以分别与28个Query进行交互，形成不同的功能表示，这种调整显著增强了模型的表达能力。

通过这种方式，TransMLA能够提升GQA模型的表达能力，同时不增加KV Cache的数量。值得注意的是，新增的参数量非常小。

具体来说，针对Q-K对，增加了一个的矩阵，而原始矩阵的维度为，因此新增参数量仅占原始矩阵的1/8。

对于V-O对，新增的参数量同样是原来参数量的1/8。整体来看，模型的参数量从原来的7.6B略增至7.7B，增加幅度非常小。

为了评估转换后的MLA模型性能的提升，我们将原始基于GQA的Qwen模型与转换后的TransMLA模型分别在一个新的指令微调数据集SmolTalk上进行训练。

SmolTalk数据集包含丰富的指令微调数据，同时也涵盖了MetaMathQA等数学任务数据和Self-OSS-Starcoder2-Instruct等代码任务数据。

训练过程中，我们使用了torchtune框架，设定batchsize为16，学习率为2e-5，并训练了2个epoch。

在训练过程中，为了尽量减少对原始模型的影响，我们仅对模型中Key-Value层进行训练。

对于GQA模型，只训练和；而对于转化后的MLA模型，我们训练、、和四个权重矩阵。

训练过程中的Loss以及训练后模型的效果都展示在下图中：

训练loss以及在测试集上的准确率

从图中可以看出，经过转换的MLA模型在训练过程中表现出更低的Loss值，表明其对训练数据的拟合能力更强。

在7B和14B模型的设置下，TransMLA模型在数学和代码任务上的准确率显著高于原始的基于GQA的模型。

这表明，TransMLA不仅提升了模型的表达能力，还在特定任务上带来了显著的性能改进。

这种性能提升不仅仅归功于增大了Key-Value中的可训练参数，正交化分解方式的使用也在其中发挥了至关重要的作用。

为了进一步验证这一点，我们进行了对比实验。在这个实验中，我们没有采用正交化分解方式，而是通过Identity Map初始化升维模块来实现TransMLA。

训练后得到的模型在GSM8K数据集上的准确率为82.11%，比基于GQA的模型（81.96%）高出仅0.15%。

这一结果表明，仅仅增加可训练的参数并不能解释TransMLA性能的显著提升，正交化分解方式在提升模型效果方面发挥了关键作用。

目前，更多的实验正在进行中，希望深入探究这一现象背后的原因，进一步验证正交化分解对模型性能的贡献。

后记

本文证明了GQA模型都能转化为MLA形式，给了大模型厂商一个放弃GQA，拥抱MLA的理由，以及快速过渡的方法。

然而收到原始模型结构的限制，TransMLA的结构并不是最优的，如没有对Query进行压缩，没有使用Decoupled RoPE，以及Key和Value使用了独立的latent Vectors。

若要从头训练模型，仍然建议在Deepseek V3的结构上进行创新。TransMLA能够提升目前R1蒸馏Qwen，蒸馏LLaMA项目的效果。

未来我们将会进行这一工作，并开源训练代码和模型。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
在这里插入图片描述

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
在这里插入图片描述

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

Qwen爆改为DeepSeek，再复现R1！

TransMLA方法

1）GQA形式，复制Key-Value

2）MHA形式，将复制操作移到参数侧

3）MLA形式，低秩分解参数矩阵

4）存在MLA无法被GQA表示的情况

实验效果

后记

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

CSDN粉丝独家福利

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

CSDN粉丝独家福利

如何学习AI大模型？