大模型面试准备（十四）：再谈一下大火的 MoE

最新推荐文章于 2024-07-19 17:33:21 发布

大模型与自然语言处理

最新推荐文章于 2024-07-19 17:33:21 发布

阅读量822

点赞数 11

分类专栏：大模型文章标签：面试职场和发展人工智能深度学习 MOE 大模型算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75499313/article/details/137360641

版权

大模型专栏收录该内容

50 篇文章 8 订阅

订阅专栏

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

合集在这里：《大模型面试宝典》(2024版) 正式发布！

之前我写过一篇讲解 MoE 的文章，收到了不少读者的关注和阅读。

今天这篇文章再来从应用层面给大家分享一下MoE的主要分类和用法。喜欢本文记得收藏、关注、点赞。

MoE 原理回顾

MoE 是用稀疏 MoE 层替换前馈层。这些层包含一定数量的专家（例如 8 个），每个专家都是一个神经网络（通常是 FFN）。然后，路由器/门网络负责选择要使用的专家。

在这里插入图片描述

MoE 具有预训练速度快的特点，通过只激活所需的参数数量，从而获得更快的训练和推理速度。但如果您希望将所有专家加载到内存中，仍然需要很高的 VRAM。无论如何，就激活参数而言，它们往往比具有相同参数数量的密集模型表现出色。典型的 MoE 架构的大语言模型：Switch Transformers、Mixtral、DBRX、Jamba DeepSeekMoE 等等。

MoE 分类与对比

Pretrain MoE

Pretrain MoE （预训练 MoE）旨在利用 MoE 架构从头开始预训练语言模型，以期获得比传统密集模型更高效的训练效果。

下表是 ST-MoE 这篇论文对哪些 Token 组发送给哪些专家的统计：

预训练 MoE 的优势在于：

训练速度更快。在相同计算预算下，MoE 模型理论上可以比密集模型更快达到相同的性能水平。
推理速度更快。尽管 MoE 模型参数量巨大，但实际推理时只会激活部分专家，因此推理速度比拥有相同参数量的密集模型更快。
专家可以专门针对不同的浅层概念或词元组，而不是某个特定主题。

不过，预训练 MoE 也面临一些挑战，如推理时需要大量内存来加载所有专家参数，以及在下游任务微调时容易过拟合等。

代表性的预训练 MoE 模型有 Switch Transformer、Mixtral 等。

Upcycled MoE

Upcycled MoE（再利用 MoE）的思路是在一个已经训练好的基础模型上，通过复制其前馈网络来创建多个专家，形成一个 MoE 模型。

在这里插入图片描述

与从头预训练相比，Upcycled MoE 的优势在于：

基于成熟的预训练模型，继续预训练的计算成本更低。
可以使用细粒度的专家，即将前馈网络切割成更小的单元，从而获得数量众多的小型专家。
可以灵活控制要激活的专家数量，在推理速度和效果之间进行权衡。

Upcycled MoE 的代表性工作包括 DeepSeek-MoE、Upstage SOLAR 等。

Franken MoE

Franken MoE（转基因 MoE）的思路与模型合并类似，即选择几个在特定任务上表现优异的微调模型，将它们组合成一个 MoE 模型。 通过一定的训练，可以让路由器学会将不同类型的 token 发送给对应的专家。

与预训练 MoE 和再利用 MoE 相比，Franken MoE 的特点是：

专家是面向特定任务的，而不是通用的浅层概念，这一点与预训练 MoE 有本质区别。
不再具有 MoE 的某些优势，如负载均衡。因为专家之间的能力差异较大。
在特定任务上的表现可能优于通用的 MoE 模型，如 Beyonder-4x7B-v2。

但 Franken MoE 能否广泛应用于不同场景，目前还有待进一步验证。

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型算法岗技术与面试交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2040，备注：技术交流

用通俗易懂方式讲解系列

大模型与自然语言处理

关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
大模型面试准备（十四）：再谈一下大火的 MoE

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。之前我写过一篇讲解 MoE 的文章，收到了不少读者的关注和阅读。今天这篇文章再来从应用层面给大家分享一下MoE的主要分类和用法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。