Mixtral-8x7B 背后的 MoE 技术

本文详细介绍了专家混合(MoE)技术,包括其历史、稀疏性、在Transformer中的应用以及如何加速MoE模型的运行。MoE通过稀疏性在不增加计算成本的情况下扩大模型规模,允许在大规模模型中实现高效推理。文章还讨论了Switch Transformers和微调MoE的策略,以及开源MoE项目。
摘要由CSDN通过智能技术生成

目录

  • 什么是专家混合(MoE)?
  • MoE 的历史
  • 什么是稀疏性?
  • MoE 和 Transformers
  • Switch Transformers
  • 微调 MoE
  • 加速 MoE 的运行
  • 服务技巧
  • 开源 MoE 项目

正文

什么是专家混合(MoE)?

模型的规模对于提升其质量至关重要。在有限的计算资源下,相较于用更多步骤训练一个小型模型,训练一个大型模型即便步骤更少效果通常更好。MoE 让模型以「远低于传统密集模型的计算成本」进行预训练,这意味着你可以在相同的计算预算下显著扩大模型或数据集的规模。特别是在预训练阶段,MoE 模型能比其同等规模的密集型模型更快地达到相同的性能水平。

那么,MoE 究竟是什么呢?在 Transformer 模型的背景下,MoE 主要由两个部分组成:

  • 稀疏 MoE 层代替了传统的密集前馈网络 (FFN) 层。MoE 层包含若干“专家”,例如 8 个,每个专家都是一个独立的神经网络。实际上,这些专家通常是 FFN,但它们也可以是更复杂的网络,甚至可以是 MoE 本身,形成一个层级结构的 MoE。
  • 门控网络或路由器,用于决定哪些 Token 分配给哪个专家。值得注意的是,一个 Token 可以被分配给多个专家。

如何高效地将 Token 分配给合适的专家,是使用 MoE 技术时需要考虑的关键问题之一。路由器由一系列可学习的参数构成,它与模型的其他部分一起进行预训练。

MoE 的历史

MoE 的概念最早出现在 1991 年的论文《Adaptive Mixture of Local Experts》中。这一理念与集成方法相似,目的是通过监督程序管理一个由不同网络构成的系统,每个网络处理训练样本的一部分。每个单独网络或“专家”,都在输入空间的不同区域有其特长。由单独的门控网络决定每个专家的权重,在训练过程中,同时对专家和门控网络进行训练。

在 2010 至 2015 年间,两个不同的研究领域推动了 MoE 的进一步发展:

  • 将专家作为组件:在传统的 MoE 结构中,系统由一个门控网络和多个专家组成。MoE 作为整体模型已在 SVM、高斯过程等方法中得到应用。Eigen 等人的研究将 MoE 作为更深层网络的一部分进行探索。这意味着 MoE 可以作为多层网络中的一层,使模型在大规模和高效率之间达到平衡。
  • 条件计算:传统网络会将所有输入数据通过每一层。在此期间,Yoshua Bengio 探索了一种基于输入 Token 动态激活或停用网络组件的方法。这些研究促进了在自然语言处理领域对混合专家模型的探索。具体来说,Shazeer 等人 (2017 年的研究,团队成员包括 Geoffrey Hinton 和 Jeff Dean) 将这一理念应用到了一个 137B 的 LSTM (当时的 NLP 主要架构) 上,通过引入稀疏性概念,即使在大规模应用中也能保持快速的推理速度。这项工作主要关注翻译领域,但也面临着高通信成本和训练不稳定等挑战。

什么是稀疏性?

稀疏性基于条件计算的概念。不同于密集模型中所有参数对所有输入都有效,稀疏性让我们能够只激活系统的部分区域。条件计算 (即网络的某些部分仅针对特定样本激活) 使得在不增加计算量的情况下扩大模型规模成为可能,从而在每层 MoE 中使用了数千名专家。

这种方法也带来了挑战。比如,虽然大批量处理通常能提高性能,但在 MoE 中,当数据通过活跃的专家时,实际的批量大小会减小。例如,如果我们的批量输入包含 10 个 Token,可能有 5 个 Token 由一个专家处理,另外 5 个 Token 分别由 5 个不同的专家处理,这导致批量大小不均匀,资源利用率低下。

那我们该如何解决这些问题呢?让我们深入探讨 Shazeer 在翻译领域对 MoE 的研究。通过一个学习型的门控网络 (G),决定将输入的哪些部分分配给哪些专家 (E):

y = ∑ i = 1 n G ( x ) i E i ( x ) y = \sum_{i=1}^{\text{n}} G(x)_i E_i(x) y=i=1nG(x)iEi(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值