使用 MergeKit 创建专家组合---将多个模型合并到同个 MoE 中

lichunericli

已于 2024-04-01 17:17:41 修改

阅读量1k

点赞数 19

分类专栏： LLM 文章标签：人工智能自然语言处理语言模型

于 2024-04-01 17:12:32 首次发布

本文链接：https://blog.csdn.net/lichunericli/article/details/137239183

版权

本文介绍了如何使用MergeKit创建FrankenMoE，即通过集成多个预训练模型来创建Mixture of Experts（MoE）。讨论了MoE架构的工作原理，包括专家和路由器组件，并探讨了创建FrankenMoE的过程，特别是通过隐藏表示初始化路由器的方法。文中还提到了创建FrankenMoE的实例，展示了如何从不同的预训练模型中选择专家，以及如何使用MergeKit进行模型整合。最后，对创建的FrankenMoE进行了基准测试，展示其在多个任务中的表现。

摘要由CSDN通过智能技术生成

原文地址：create-mixtures-of-experts-with-mergekit

2024 年 3 月 27 日

由于 Mixtral 的发布，Mixture of Experts（MoE）架构近几个月开始流行。这种架构提供了一个有趣的权衡：以增加 VRAM 使用为代价获得更高的性能。虽然 Mixtral 和其他 MoE 架构是从头开始预训练的，但最近出现了另一种创建 MoE 的方法。感谢阿尔茜的MergeKit库，我们现在有了一种通过集成多个预训练模型来创建 MoE 的新方法。这些通常被称为frankenMoEs or MoErges，将它们与预先训练的 MoE 区分开来。

在本文中，我们将详细介绍 MoE 架构的工作原理以及 FrankenMoE 的创建方式。最后，我们将使用 MergeKit 制作我们自己的 FrankenMoE，并在几个基准上对其进行评估。该代码可在 Google Colab 上的名为LazyMergeKit的包装器中找到。

特别感谢MergeKit 的创建者Charles Goddard校对本文。