混合专家模型
文章平均质量分 96
恭仔さん
志之所趋,无远弗届。
展开
-
LIMoE:使用MoE学习多个模态
文章提出了第一个使用MoE组合的大规模多模式架构 LIMoE。 使用稀疏激活的自然专家同时处理图像和文本。原创 2023-12-09 17:26:51 · 3261 阅读 · 0 评论 -
Janus: Data-Centric MoE 通讯成本分析(2)
在之前的blog中,我们学习了Janus的理论基础和模型搭建。通过以数据为中心的范式思路和巧妙的读取测略,Janus极大的减少了算法的通讯成本。本篇blog将从数学的角度定量解读Janus是如何降低通讯开销的。原创 2023-10-23 21:25:36 · 10006 阅读 · 0 评论 -
Janus: 逆向思维,以数据为中心的MoE训练范式(1)
常见的MoE架构都以专家为中心,通过将专家保留在合适的位置,并交换中间数据以满足专家的需求。那么如果调换一下专家和数据的位置关系,会有什么神奇的现象发生呢?基于这个猜想,诞生了Janus以数据为中心范式——保持数据在适当的位置,并在gpu之间移动专家。这个猜想的合理处在于,如果专家的规模小于数据规模,那么以数据为中心的范式可以减少交流的工作量。原创 2023-10-20 21:25:25 · 10704 阅读 · 1 评论 -
MMoE: 基于多门专家混合的多任务学习任务关系建模
Multi-task Learning with Multi-gate Mixture-of-Experts原创 2023-10-19 20:54:18 · 12575 阅读 · 0 评论 -
PFL-MoE:基于混合专家的个性联邦学习
PEL-MoE:基于专家混合的个性化联合学习原创 2023-10-17 22:17:23 · 12844 阅读 · 0 评论 -
Single-gated MoE : CV领域MoE模型应用
大规模MoE条件模型的成功引发了这样一个问题:对于规模更小的数据集和架构,是否也可以得到类似的结果?本文建议人们重新审视简单的单门混合专家模型,因为它允许人们进行更多的实践训练。原创 2023-10-11 20:24:32 · 8595 阅读 · 0 评论 -
SE-MoE:可拓展分布式MoE训练及推理框架(百度)
百度团队提出了一个新的混合专家(MoE)模型的训练和推理框架:SE-MoE。文章解决了MoE模型在计算、通信和存储方面的挑战和局限性。原创 2023-10-08 18:25:22 · 13847 阅读 · 1 评论 -
Learning@home:大模型分布式训练范式
如何在不可靠的硬件上训练大型神经网络。作者提出了这样一个希冀:研究人员和实践者将能够联合起来,共同解决最大的问题,而不是进行孤立的实验。大模型训练不再局限于一台超级计算机,而是随着世界各地越来越多的人和组织的加入,自然增长。原创 2023-10-06 16:34:16 · 16814 阅读 · 1 评论 -
EdgeMoE:让LLM在边缘设备上推理成为现实
EdgeMoE 边缘设备的大语言模型推理技术解读。原创 2023-09-27 21:00:00 · 21259 阅读 · 2 评论 -
混合专家模型(MoE)的概念介绍和应用案例
混合专家模型(MoE)是什么,大模型为什么青睐这一模式,稀疏激活的思想能带来什么?原创 2023-09-13 19:55:51 · 23106 阅读 · 0 评论