Adaptive mixtures of local experts, Neural Computation‘1991

Da_v_

已于 2023-11-13 16:41:03 修改

阅读量425

点赞数 16

分类专栏： MoE论文阅读文章标签：分布式

于 2023-11-13 09:14:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56341866/article/details/134369672

版权

MoE论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Adaptive mixtures of local experts, Neural Computation'1991

公式1

公式2及其导数

公式3及其导数

--反向传播训练单个多层网络可能使得模型的泛化性不强、速度慢。

=训练之前能够将任务划分为子任务，各个子任务分到各网络，通过各自适应的数据集进行训练；过程中需要门控网络区分训练数据并能够将该任务分配到“个人”。

=公式1中，最终输出为每个expert的输出*权重，因此每个网络为了让整体的误差减小，所以要“均摊”其他expert输出的残差（合作关系，但是会一个expert的残差改变，其他experts的残差导数都要改变）à 公式2 每个模型中单独输出，误差为期望输出与实际输出的加权平方和（每个expert都会奔着期望输出拟合，而不会受其他expert的残差影响，即系统会倾向于让最优的expert单独处理该样例）

Question：

--公式1 每个“expert”对每个样例的权重pi是由门控网络决定的吗？

--公式3 公式3的导数为什么是最快的适应，而公式二的导数是最慢的适应。

--gating门控网络的输出 gating network?

关注

16
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。