【笔记】Mixture-of-Depths（MoD），改变了以往Transformer计算模式

deardao

于 2024-04-27 10:15:45 发布

阅读量589

点赞数 2

文章标签：笔记 transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangdaojun/article/details/138243660

版权

Mixture-of-Depths(MoD)方法通过在大模型训练和推理过程中动态分配计算资源，避免对简单任务过度计算，从而显著提高效率并减少推理时间。它通过限制特定层的计算量，促使网络专注于关键信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

- Mixture-of-Depths（MoD）

Mixture-of-Depths（MoD）

MOD 通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。

在的大模型训练和推理中，有很多计算是没必要的。比如预测下一个句子很难，但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源，那么后者明显浪费了。

它在输入序列中的特定位置动态分配FLOPs（运算次数或计算资源），优化不同层次的模型深度中的分配。

通过限制给定层的自注意力和MLP计算的token数量，迫使神经网络学会主要关注真正重要的信息。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。