DeepSeek V2/V3中的MLA和Matrix Absorption

DeepSeek V3的网络结构基本沿用了DeepSeek V2,采用了MLA和DeepSeekMoE两大特性。本文主要涉及MLA(Multi-Head Latent Attention)。抛开维度变化,DeepSeek V3与V2在MLA结构上差别不大。详细请参见官方论文《DeepSeek-V3 Technical Report》和《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》。

关于MLA的介绍网上很多,不多讲了。这里将论文中的示意图,公式与官方代码(modeling_deepseek.py)的对应关系做了标注。
在这里插入图片描述
论文中还提到matrix absorption的优化:
Fortunately, due to the associative law of matrix multiplication, we can absorb W U K W^{UK} WUK into W U Q W^{UQ} WUQ, and W U V W^{UV} WUV into W O W^{O} WO.

为了方便看出差别,这里按论文中的convention整了下matrix absorption后的示意图和公式,并标注了对应关系。代码由于官方没给出,参考的是SGLang中python/sglang/srt/models/deepseek_v2.py里的DeepseekV2AttentionMLA::forward_absorb
在这里插入图片描述

其中matrix absorption的部分由于计算只涉及权重参数,因此可以提到初始化时,或者离线做。实现可以参考FlashInfer中tests/test_mla_decode_kernel.py中的DeepseekV2AttentionMatAbsorbDecode

但注意该优化适用于generation阶段,不适用于prefill阶段。看下优化前后的相关两部分计算量比较:

在这里插入图片描述
在这里插入图片描述

将模型参数代入可发现,generation阶段时可以减少计算量,而prefill阶段时不能。

### DeepSeek V2版本特性 DeepSeek - V2.5作为一款先进的AI模型,在多个维度上展现了卓越的能力。该模型不仅继承发展了早期版本的优点,还在通用能力、代码处理能力安全性方面进行了显著提升[^1]。 #### 功能特点 - **强大的通用能力**:能够适应多种应用场景的需求。 - **出色的代码处理能力**:支持复杂编程任务的理解与执行。 - **增强的安全机制**:保障数据隐私的同时提供稳定可靠的服务。 ### 使用指南 为了帮助用户更好地利用DeepSeek - V2.5的功能,官方提供了详细的文档支持资源。建议初次使用者先阅读相关介绍材料并尝试简单的API调用来熟悉操作流程。对于开发者而言,则可以探索更多高级特性定制化选项来满足特定需求。 ```python import deepseek as ds # 初始化客户端实例 client = ds.Client(api_key='your_api_key') # 调用某个服务接口 response = client.call_service('example_service', params={'key': 'value'}) print(response) ``` 请注意,由于产品价格可能会有所调整,因此推荐定期访问官方网站获取最新的计费详情[^2]。 ### 更新内容 相较于之前的迭代,V2.5引入了一些重要的改进措施技术革新: - 应用了多头潜在注意力(MLA)技术,提高了推理效率; - 集成了DeepSeekMoE架构,降低了训练成本同时保持高性能水平[^3]; 这些变化使得新版本能够在更广泛的场景下表现出色,并为未来的持续优化奠定了坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值