Adaptive mixtures of local experts, Neural Computation'1991
公式1
公式2及其导数
公式3及其导数
--反向传播训练单个多层网络可能使得模型的泛化性不强、速度慢。
=训练之前能够将任务划分为子任务,各个子任务分到各网络,通过各自适应的数据集进行训练;过程中需要门控网络区分训练数据并能够将该任务分配到“个人”。
=公式1中,最终输出为每个expert的输出*权重,因此每个网络为了让整体的误差减小,所以要“均摊”其他expert输出的残差(合作关系,但是会 一个expert的残差改变,其他experts的残差导数都要改变)à 公式2 每个模型中单独输出,误差为期望输出与实际输出的加权平方和(每个expert都会奔着期望输出拟合,而不会受其他expert的残差影响,即系统会倾向于让最优的expert单独处理该样例)
Question:
--公式1 每个“expert”对每个样例的权重pi是由门控网络决定的吗?
--公式3 公式3的导数为什么是最快的适应,而公式二的导数是最慢的适应。
--gating门控网络的输出 gating network?