什么是专家混合(MoE)

什么是专家混合(MoE)❓

专家混合(MoE)是一种机器学习框架,类似于一个由擅长处理复杂任务不同方面的专家组成的团队。

这就像将一个大问题分成更小、更易管理的部分,并将每个部分分配给不同的专家。

从技术上讲,它是变压器架构的一种变体,引入了一个包含多个专家(网络/FFN)的新MoE模块,该模块前面有一个门控函数,决定将传入的令牌路由到哪个专家!

关键组件

  • 专家:一个专家可以是基本的前馈网络,也可以是大型语言模型(LLM)本身。

  • 门/路由器:在MoE模块中,门控函数GATE(·)使用softmax来衡量每个专家处理传入令牌的能力。

它们有什么特别之处❓

  • 它允许我们拥有专门的专家。一个专家可以擅长编码,另一个擅长数学,还有一个擅长写作。

  • 每个专家可以并行分布在多个GPU上,使推理更快。

  • 由于每个令牌都有自己的专家(或前k名专家)处理,我们在不影响推理成本的情况下技术上增加了更多可学习参数,这是一个巨大的胜利!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值