MOE混合专家模型详解

不当菜鸡的程序媛

已于 2024-09-12 12:47:19 修改

阅读量469

点赞数 5

分类专栏：学习记录文章标签： transformer

于 2024-07-27 14:31:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivi_cin/article/details/140734898

版权

学习记录专栏收录该内容

143 篇文章

订阅专栏

1. 结构

参考知乎图： https://www.zhihu.com/search?type=content&q=MOE的baseline

MoE 之所以脱颖而出，是因为它动态地确定哪个“专家”应该处理给定的输入，这与依赖静态规则来组合输出的传统集成不同。

huggingface写的详细的博客：

混合专家模型（MoE）详解 (huggingface.co)

GateNet：多类的判别模型 此部分用来决定输入的token分发给哪一个专家
GateNet可以理解为一个分配器，根据输入样本的特征，动态决策将其分配给哪个专家进行处理。这个过程可以通过一个softmax分类器来实现，其中每个神经元对应一个专家模型。GateNet的输出值表示了每个专家的权重。

GateNet的设计需要考虑两个关键点：输入样本特征的提取和分配策略的确定。在特征的提取方面，常用的方法是使用卷积神经网络（CNN）或者Transformer等结构来提取输入样本的特征表示。而在分配策略的确定方面，可以采用不同的注意力机制或者引入一些先验知识来指导。

2. MoE实践案例

在语言模型应用过程中，当输入数据通过MoE层的时候，每个token都有GateNet分配在最适合处理的专家模型身上。由于每个专家专注于特定任务，这一方法可以实现计算的高效性。
不仅如此，这种方式允许模型对不同类型的输入数据进行个性化处理，提高了整体效率和性能

Switch transformer:

paper:https://arxiv.org/pdf/2101.03961

这个从0开始建立MOE是讲的真的好：

(54 封私信 / 1 条消息) 混合专家模型MOE - 搜索结果 - 知乎 (zhihu.com)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。