什么是专家混合(MoE)❓
专家混合(MoE)是一种机器学习框架,类似于一个由擅长处理复杂任务不同方面的专家组成的团队。
这就像将一个大问题分成更小、更易管理的部分,并将每个部分分配给不同的专家。
从技术上讲,它是变压器架构的一种变体,引入了一个包含多个专家(网络/FFN)的新MoE模块,该模块前面有一个门控函数,决定将传入的令牌路由到哪个专家!
关键组件
-
专家:一个专家可以是基本的前馈网络,也可以是大型语言模型(LLM)本身。
-
门/路由器:在MoE模块中,门控函数GATE(·)使用softmax来衡量每个专家处理传入令牌的能力。
它们有什么特别之处❓
-
它允许我们拥有专门的专家。一个专家可以擅长编码,另一个擅长数学,还有一个擅长写作。
-
每个专家可以并行分布在多个GPU上,使推理更快。
-
由于每个令牌都有自己的专家(或前k名专家)处理,我们在不影响推理成本的情况下技术上增加了更多可学习参数,这是一个巨大的胜利!