DeepSeek-主要概念

最新推荐文章于 2025-05-11 23:27:05 发布

世润

最新推荐文章于 2025-05-11 23:27:05 发布

阅读量211

点赞数 10

分类专栏： DeepSeek 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012994320/article/details/147718712

版权

DeepSeek 专栏收录该内容

5 篇文章

订阅专栏

MOE

MOE:采用了动态路由技术，每次处理任务时，会动态激活少数几位“最擅长”的专家参与计算。

MLA:专注于提升模型的“记忆力”和“理解力”

四阶段混合训练流程和群组相对策略优化：

GRPO算法

直接根据“群体”中其他模型的表现来“相对”评价当前模型的优劣，就好比“田忌赛马”的策略，用自己的优势去对抗别人的劣势，从而更高效地提升模型性能。

FP8混合精度训练：“精度魔术”

FP8混合精度训练将GEMM运算精度降低到8-bit浮点数，训练速度提升2.1倍，GPU内存占用减少43%，真正做到了“又快又省”。

DualPipe并行技术：“并行奇观”

将计算任务巧妙地拆分，实现了16路流水线并行和64路专家并行，就好比将一条生产线扩展成多条“并行运转”的超级生产型，大幅提升了生产效率。

动态算子优化：“内核引擎”

针对不同任务、模型自动匹配最优的计算内核。

推理加速的“闪电战”：多token预测与结构化思维链

MTP(多token预测)

MTP技术让模型拥有“预测未来”的能力，MTP可以预测未来2-3个token,解码速度提升4.2倍，token接受率高达91%

S-chain（逻辑引擎）

模型按照分析->验证->结论的结构输出，并利用规则引擎实时校验中间步骤

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

世润 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。