MOE学习笔记

最新推荐文章于 2025-04-12 20:46:55 发布

王大队长

最新推荐文章于 2025-04-12 20:46:55 发布

阅读量779

点赞数 2

分类专栏： LLM学习笔记文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55621259/article/details/139940479

版权

LLM学习笔记专栏收录该内容

2 篇文章

订阅专栏

MOE网络结构

和传统的 transformer 网络结构相比，我们将 Transformer 模型的每个 FFN 层替换为 MoE 层，MoE 层由门网络（Router）和一定数量的专家（Expert）组成。

这些 Expert 其实也是 FFN 层，但是是 sparse FFN 层。
Router 理论上可以是一个简单的网络最后加上一个 Softmax 来归一化得到每个 expert 的分数即可。

MOE优缺点

优点：降低推理耗时

因为在 transformer 的推理过程中 FFN 的权重的维度是 ffn1: d_model x d_ff（d_ff 通常很大例如等于 4*d_model），ffn2: d_ff x d_model，所以除了 attention 之外这两个 ffn 的推理耗时占比也是比较大的，因此将 transformer 换成 MOE 的一个优点就是降低推理耗时。

这里需要注意的是 MOE 的所有 expert 加起来参数比 transformer 的参数要多，但是我们推理过程中只会根据 Router 来选择激活一个或者几个 expert，所以这时的推理时的参数是要比 transformer 要小的。

缺点：增加网络参数量、finetune 困难目前不成熟

因为 MOE 需要提前加载所有 Expert 的参数，所以比起 transformer 来说参数量会大一些（只是提前加载的参数量）

Sparse model 更容易过拟合，并且 MOE 比较难 finetune。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。