Adaptive mixtures of local experts, Neural Computation‘1991

Adaptive mixtures of local experts, Neural Computation'1991

公式1

                                                 公式2及其导数

                                          公式3及其导数

--反向传播训练单个多层网络可能使得模型的泛化性不强、速度慢。

       =训练之前能够将任务划分为子任务,各个子任务分到各网络,通过各自适应的数据集进行训练;过程中需要门控网络区分训练数据并能够将该任务分配到“个人”。

      

=公式1中,最终输出为每个expert的输出*权重,因此每个网络为了让整体的误差减小,所以要“均摊”其他expert输出的残差(合作关系,但是会 一个expert的残差改变,其他experts的残差导数都要改变)à 公式2 每个模型中单独输出,误差为期望输出与实际输出的加权平方和(每个expert都会奔着期望输出拟合,而不会受其他expert的残差影响,即系统会倾向于让最优的expert单独处理该样例)

Question

       --公式1  每个“expert”对每个样例的权重p­i­是由门控网络决定的吗?

       --公式3 公式3的导数为什么是最快的适应,而公式二的导数是最慢的适应。

       --gating门控网络的输出 gating network?                              

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值