MoE(Mixture of Expert)简单research

首先,混合专家层的提出非常早,早在九几年就提出来了。在机器学习中运用。想法是简单的分治法:将大的问题拆分成各个小问题,训练不同的专家来针对性地解决这些小问题,最后再将专家们的输出结合起来。

这点和ensemble learning有异曲同工之处,流行的结合方法也有bagging boosting之类的,我甚至觉得原理上讲,他们可以归为一类。

MoE的关注重点是

  1. 专家之间应该保证足够的差异性,这样才能使得问题域被正确地划分
  2. 专家的判断如何汇总成一个输出,即如何形成一个最终判断

就专家的差异性,传统的集成学习,可以提供给不同的数据集给不同专家训练,可以使专家的结构有所不同,等等

专家的汇总输出,可以加权求和,可以直接平均,等等

MoE的做法是,用一个gating network,即门控网络,来负责分发作业给各个专家。这个门控网络的作用一是对数据有个初步的认知,且知道该将此数据交给哪个专家来处理,二是平衡各个专家之间的关系,即让各个专家不至于被“冷落”

相关工作

2017 NIPS

OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

谷歌这篇论文将MoE用于文本任务,构建庞大的专家网络,同时用门网络来保证其稀疏性:即只有少数专家被选中并参与判断。让参数量巨大的网络构成,变得人人都可以玩,同时又保证该参数量级别的网络拥有足够的表达能力。

文章将MoE的结构嵌入到循环神经网络中去。

其中门网络由一个全连接层和一个softmax构成,每个expert也是小网络。gating出来只选择概率最大的K个专家的输出形成一个概率分布,这样就保证了专家的稀疏性,即论文标题中的sparsely-gated network。

这样的网络结构可以端对端的基于反向传播训练,出来效果惊人云云。

后面谷歌在图像方面,搞出了 V-MoE,在ImageNet上干到了第四。

截图来源于 paperwithcode

 可见MoE的潜力巨大

MoE这种结合模型的技巧,是非常值得我们关注的。

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
专家混合模型(Mixture-of-Experts, MoE)是一种机器学习模型,用于解决复杂问题。它由多个“专家”子模型组成,每个子模型负责解决输入空间的特定子领域。这些子模型可以是不同类型的模型,如决策树、神经网络等。 MoE模型的主要思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,以确保每个子模型都能有效地处理特定类型的数据。 MoE模型的关键是学习如何分配数据给各个子模型,并且如何将各个子模型的输出进行合并。通常,这个过程是通过训练模型来实现的,使用最大化似然估计或其他类似的最优化方法。 MoE模型的优势在于它能够有效地利用不同子模型的优势,提升整体模型的性能。每个子模型专注于解决特定的问题,因此可以更好地适应不同的数据分布和特征。此外,MoE模型还可以通过动态分配和合并数据,自适应地学习不同数据分布的变化。 尽管MoE模型具有很多优点,但也存在一些挑战。例如,确定合适的子模型数量和结构可能需要一些领域知识和经验。另外,MoE模型的训练过程相对复杂,可能需要更多的计算资源和时间。 总的来说,专家混合模型是一种强大的机器学习模型,它通过将多个专家子模型组合起来,以提高整体模型的性能。它在实际应用中具有很大潜力,可以用于解决各种复杂问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值