MOE并行策略的实现

不当菜鸡的程序媛

已于 2024-10-05 20:17:35 修改

阅读量390

点赞数 2

分类专栏：学习记录 moe 文章标签：深度学习

于 2024-10-05 20:17:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivi_cin/article/details/142718481

版权

学习记录同时被 2 个专栏收录

143 篇文章

订阅专栏

3 篇文章

订阅专栏

MOE并行策略的实现

在MOE并行策略中，每个MoE层包含多个专家，每个专家负责处理一部分输入数据。为了实现这一策略，我们需要将输入数据划分为多个分片，每个分片对应一个专家。然后，根据输入数据的特征，选择相应的专家进行处理。这个过程可以通过条件计算来实现。

条件计算是一种动态的计算方式，它可以根据输入数据的特征，选择性地执行模型中的一部分计算。在MOE并行策略中，条件计算用于选择相应的专家来处理输入数据。具体来说，我们可以使用一个门控网络来实现条件计算。门控网络根据输入数据的特征，输出一个概率分布，该概率分布用于选择相应的专家。

自动分片技术则是MOE并行策略的另一个关键部分。它负责将输入数据划分为多个分片，并将每个分片分配给相应的专家进行处理。自动分片技术可以根据输入数据的特征和模型的结构，动态地调整分片的数量和大小，从而实现高效的并行计算。

转载：大模型分布式训练并行技术（八）：MOE并行探索 (baidu.com)

不当菜鸡的程序媛

博客等级

码龄8年

362
原创

1432
点赞

1578
收藏

1348
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Con
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。