DeepSeek 核心技术大解密——详细版

置顶不埋雷的探长

已于 2025-03-01 14:10:18 修改

阅读量361

点赞数 7

文章标签： AI DeepSeek 大模型 MoE MTP MLA

于 2025-03-01 13:58:10 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/weixin_32265569/article/details/145947034

版权

引言：之前写了一篇《DeepSeek 核心技术大解密》，当时因为时间关系没有进一步串解各技术创新亮点。最近再细致研读论文并在原来的基础上做了细化，特别是结合每个版本迭代中的 diff 技术变更进行剖析并添加上自己的理解。希望与AI 技术爱好者一起共同进步。

DeepSeek核心技术大揭秘，尽可能通俗易懂大白话方式、以多视角剖析不同版本技术亮点以及发展历程，同时结合官方不同版本以及之前总结的前版本进行汇总剖析，最近再细致研读论文并在原来的基础上做了细化，特别是结合每个版本迭代中的 diff 技术变更进行剖析并添加上自己的理解，探索DeepSeek V1~R1 卓越之处~

注意，在多次研读官方技术论文发现：

MoE 实际是从 Basic版本 --> V2版本 --> V3版本，逐步迭代并不是一上来就干全了，是反复权衡；
MoE 在V2 是有丢低效Token策略；但在V3上因为更有效的负载均衡策略 从“丢低效Token策略” ---> "无Token丢弃"；
训练框架上除了DualPipe外，还有很多创新 如“高效并行策略、跨节点通信优化、内存管理”；
DeepSeek众多创新背后有非常大吸收国外、国内比较前沿的技术论文，迭代跟进快、落地迅速；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不埋雷的探长 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。