什么是MOE架构

让不同“专家”处理不同任务

对于深度学习来说,能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法,往往是单个输入就需要激活整个网络。谷歌这次提出的新方法,最大亮点就是首次在这一领域采用了稀疏化模型。

稀疏化的方法便是无需让整个模型来处理所有的输入。通过对神经网络进行划分,它让神经网络也“专业对口”,不同的子模型只处理固定类型的任务或数据。

但也不是完全割裂开来,模型内部仍有可共享的部分。此次基于的模型是MoE(Mixture-of-Experts layer),它被称为专家混合模型。也就是在Transformer架构的基础上,加设了“专家层”。

它是一个并行的FNN,取代了原本的前馈网络。这里的“专家”,也就是模型内部的不同子模型。每个子模型专门用于不同的输入。

每一层中的专家由门控网络控制,该网络根据输入数据激活专家。对于每个标记,门控网络选择最合适的专家来处理数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值