DeepSeekV2改进详解

小裴（碎碎念版）

已于 2025-10-15 21:16:04 修改

阅读量107

点赞数 1

CC 4.0 BY-SA版权

文章标签： python

于 2025-10-15 18:34:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Drunk_awm/article/details/153331591

先上图
面完就补狠狠学！！！

1.MLA

MLA多头潜在注意力机制
减少kv cache
为了保留旋转位置编码进行拆分

MHA->GQA->MQA->MLA

2.MOE

deepseekMoE架构
共享专家和路由专家
负载均衡损失

小裴（碎碎念版）

博客等级

码龄6年

59
原创

179
点赞

148
收藏

132
粉丝

关注

私信

热门文章

分类专栏

PAT 19篇
天梯 18篇
美赛准备 1篇
c++学习

上一篇：: 面试手撕代码

下一篇：: Qwen系列源码解析

最新评论

YOLO系列模型
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【天梯】python L2-031 深入虎穴 (25 point(s))
充满阳光的橙子: 你好，具体是什么样子的呀
【天梯】python L2-003 月饼 (25 point(s))
Bruce772: n,d=map(int,input().split()) a=[eval(x) for x in input().split()] b=[eval(x) for x in input().split()] c=[b[i]/a[i] for i in range(n)] m=0 if len(c)>0: s=c.index(max(c)) while d>a[s]: m+=b[s] d -= a[s] c.remove(c[s]) a.remove(a[s]) b.remove(b[s]) if len(c)>0: s=c.index(max(c)) else: break if d>0: if len(c)>0: s=c.index(max(c)) m+=b[s]/a[s]*d print('%.2f'%m)
【天梯】python L2-031 深入虎穴 (25 point(s))
qq_57867839: 上一点动态规划就可以过了，不用每次都从叶节点推到根节点。
【PAT】pythonL1-006 连续因子 (20 point(s))
探索猿洗澡: 你好楼主，请问可以问下为什么要+5 源码内：#+5是为了使没有连续因子的数能够输出最小因子百思不得其解，希望能够提点

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。