ReMoE: 完全可微的混合专家与ReLU路由 ICLR 2025

ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

https://arxiv.org/pdf/2412.14711

https://github.com/thu-ml/ReMoE

 

Figure 1: Compute flows of vanilla MoE with TopK routing and ReMoE with ReLU routing. Positive values are shown in orange, and negative values in blue, with deeper colors representing larger absolute values. Zeros, indicating sparsity and computation savings, are shown in white. The red dash arrows in TopK routing indicate discontinuous operations. Compared with TopK routing MoE, ReMoE uses ReLU to make the compute flow fully differentiable.

Abstract

Sparsely activated Mixture-of-Experts (MoE) models are widely adopted to scale up model capacity without increasing the computation budget. However, vanilla TopK routers are trained in a discontinuous, non-differentiable way, limiting their performance and scalability. To address this issue, we propose ReMoE, a fully differentiable MoE architecture that offers a simple yet effective drop-in replacement for the conventional TopK+Softmax routing, utilizing ReLU as the router instead. We further propose methods to regulate the router’s sparsity while balancing the load among experts. ReMoE’s continuous nature enables efficient dynamic allocation of computation across tokens and layers, while also exhibiting domain specialization. Our experiments demonstrate that ReMoE consistently outperforms vanilla TopK-routed MoE across various model sizes, expert counts, and levels of granularity. Furthermore, ReMoE exhibits superior scalability with respect to the number of experts, surpassing traditional MoE architectures.

稀疏激活的混合专家模型(MoE)被广泛用于在不增加计算预算的情况下扩展模型容量。 然而,传统的TopK路由以非连续且不可微的方式进行训练,限制了其性能和可扩展性。 为了解决这一问题,我们提出了ReMoE,一种完全可微的MoE架构,提供了一个简单但有效的替代方案,用ReLU路由取代传统的TopK+Softmax路由。 我们进一步提出了调节路由器稀疏性并平衡专家负载的方法。ReMoE的连续性使其能够高效地动态分配跨token和层的计算资源,同时表现出领域专业化能力。 我们的实验表明,ReMoE在各种模型规模、专家数量和粒度级别上始终优于传统的TopK路由MoE。 此外,ReMoE在专家数量增加时表现出更强的可扩展性,超越了传统MoE架构。

Introduction

Transformer models (Vaswani, 2017) consistently improve performance as the number of parameters increases (Kaplan et al., 2020). However, scaling these models is constrained by computation resources. Sparsely activated Mixture-of-Experts (MoE) (Shazeer et al., 2017) mitigates this challenge by employing a sparse architecture that selectively activates a subset of parameters during both training and inference. This conditional computation allows MoE models to expand model capacity without increasing computational costs, offering a more efficient alternative to dense models.

The key component in MoE is the routing network, which selects the experts to activate for each token. Various routing methods (Shazeer et al., 2017; Lewis et al., 2021; Roller et al., 2021; Zhou et al., 2022) have been proposed, with TopK routing (Shazeer et al., 2017) being the most commonly adopted. However, the vanilla TopK router introduces a discrete and non-differentiable training objective (Shazeer et al., 2017; Zoph et al., 2022), limiting the performance and scalability.

Recent works on fully-differentiable MoE aim to overcome this limitation. Soft MoE (Puigcerver et al., 2023) introduces token merging, while SMEAR (Muqeeth et al., 2023) proposes expert merging. However, both approaches break token causality, making them unsuitable for autoregressive models. Lory (Zhong et al., 2024) improves upon SMEAR and is applicable to autoregressive models. But it underperforms vanilla MoE with TopK routing.

In this work, we address the discontinuities by introducing ReMoE, an MoE architecture that incorporates ReLU routing as a simple yet effective drop-in replacement for TopK routing. Unlike TopK routing, which computes a softmax distribution over the experts and calculates a weighted sum of the largest K experts, ReLU routing directly controls the active state of each expert through a ReLU gate. The number of active experts is determined by the sparsity of the ReLU function. To maintain the desired sparsity, we propose adding a load-balancing refined L1 regularization to the router outputs, with an adaptively tuned coefficient. This approach ensures that ReMoE maintains the same computational costs as TopK-routed MoE.

Compared to TopK routing, ReLU routing is continuous and fully differentiable, as the ReLU function can smoothly transition between zero and non-zero values, indicating inactive and active. Besides, ReLU routing manages the “on/off” state of each expert independently, offering greater flexibility. Moreover, the number of activated experts can vary across tokens and layers, enabling a more efficient allocation of computational resources. Further analysis reveals that ReMoE effectively learns to allocate experts based on token frequency and exhibits stronger domain specialization.

Our experiments on mainstream LLaMA (Touvron et al., 2023) architecture demonstrate that ReLU routing outperforms existing routing methods including TopK routing and fully-differentiable Lory. Through an extensive investigation across model structures, we find that ReMoE consistently outperforms TopK-routed MoE across a broad range of active model sizes (182M to 978M), expert counts (4 to 128), and levels of granularity (1 to 64) (Krajewski et al., 2024). Notably, in terms of scaling behavior, we observe that ReMoE exhibits a steeper performance improvement as the number of experts scales up, surpassing traditional MoE models.

Transformer模型(Vaswani, 2017)随着参数数量的增加而持续提升性能(Kaplan等, 2020)。然而,扩展这些模型受到计算资源的限制。 稀疏激活的混合专家模型(Shazeer等, 2017)通过稀疏架构缓解了这一挑战,在训练和推理过程中选择性地激活部分参数。这种条件计算使MoE模型能够在不增加计算成本的情况下扩展模型容量,提供了一种比密集模型更高效的替代方案。

MoE的关键组件是路由网络,它负责为每个token选择要激活的专家。已经提出了多种路由方法(Shazeer等, 2017;Lewis等, 2021;Roller等, 2021;Zhou等, 2022),其中TopK路由(Shazeer等, 2017)是最常用的。然而,传统的TopK路由引入了离散且不可微的训练目标(Shazeer等, 2017;Zoph等, 2022),限制了其性能和可扩展性。

最近关于全可微MoE的工作旨在克服这一限制。Soft MoE(Puigcerver等, 2023)引入了token合并,而SMEAR(Muqeeth等, 2023)提出了专家合并。然而,这两种方法破坏了token因果关系,使其不适合自回归模型。 Lory(Zhong等, 2024)改进了SMEAR,并适用于自回归模型。但它在性能上不如使用TopK路由的传统MoE。

在这项工作中,我们通过引入ReMoE解决了上述不连续性问题,这是一种采用ReLU路由的MoE架构,作为TopK路由的简单但有效的替代方案。 与TopK路由不同,后者通过对专家计算softmax分布并取前K个专家的加权和,ReLU路由通过ReLU门直接控制每个专家的激活状态。 激活的专家数量由ReLU函数的稀疏性决定。为了维持所需的稀疏性,我们提出对路由器输出添加经过优化的L1正则化,并使用自适应调整的系数。 这一方法确保ReMoE保持与TopK路由MoE相同的计算成本。

与TopK路由相比,ReLU路由是连续且完全可微的,因为ReLU函数可以平滑地在零和非零值之间过渡,指示激活或未激活状态。 此外,ReLU路由独立管理每个专家的“开/关”状态,提供了更大的灵活性。 而且,激活的专家数量可以在不同的token和层之间变化,从而实现更高效的计算资源分配。 进一步分析表明,ReMoE能够根据token频率有效地分配专家,并表现出更强的领域专业化能力。

我们在主流LLaMA架构(Touvron等, 2023)上的实验表明,ReLU路由优于现有的路由方法,包括TopK路由和全可微的Lory。 通过对模型结构的广泛研究,我们发现ReMoE在广泛的活跃模型规模(182M到978M)、专家数量(4到128)和粒度级别(1到64)上始终优于TopK路由MoE(Krajewski等, 2024)。 值得注意的是,在扩展行为方面,我们观察到随着专家数量的增加,ReMoE表现出更陡峭的性能提升,超越了传统MoE模型。


总结

Figure 2: Comparison between TopK and ReLU.

动机

本文的核心动机是解决传统TopK路由在混合专家模型中的两个关键问题:非连续性和不可微性 。这些问题导致模型性能受限,尤其是在大规模模型和多任务场景下的可扩展性不足。

核心思想

作者提出了一种全新的MoE架构——ReMoE ,其核心创新在于将传统的TopK路由替换为基于ReLU的全可微路由机制。ReLU路由不仅解决了非连续性和不可微性问题,还通过稀疏性和灵活的专家激活策略实现了更高效的计算资源分配。

具体方法
  1. ReLU路由机制 :通过ReLU函数直接控制每个专家的激活状态,避免了TopK路由中复杂的softmax计算。
  2. 稀疏性与负载均衡 :引入L1正则化来调节路由器输出的稀疏性,并通过自适应系数平衡各专家之间的负载。
  3. 动态资源分配 :ReLU路由允许激活的专家数量在不同的token和层之间动态变化,从而提高计算效率。
  4. 领域专业化 :通过分析,ReMoE能够根据token频率自动分配专家,并在特定领域任务中表现出色。
结论

实验结果表明,ReMoE在各种模型规模、专家数量和粒度级别上均优于传统TopK路由MoE。此外,随着专家数量的增加,ReMoE表现出更强的可扩展性,验证了其在大规模应用场景中的优势。

内容概要:本文详细分析了全球及中国财富管理市场的发展现状未来趋势。全球财富管理市场起源于欧洲、发展于美国,美国财富管理市场经过百年发展,形成了以商业银行、综合财富管理平台和投资服务平台为代表的三类财富管理体系。中国财富管理市场正处于快速发展期,居民财富快速增长并向金融资产倾斜,资管新规引导市场健康发展。文中还探讨了中国财富管理市场的竞争格局,包括私人银行、银行理财、公募基金、券商资管、信托、第三方财富管理机构和互联网财富管理平台的发展情况。此外,公募基金投顾试点成为财富管理市场转型的重要探索,买方投顾模式逐步取代卖方投顾模式,AI赋能投顾业务,为行业发展带来新机遇。 适合人群:对财富管理行业感兴趣的投资者、金融从业者及研究机构。 使用场景及目标:①了解全球及中国财富管理市场的发展历程现状;②掌握中国财富管理市场竞争格局及各机构的发展特点;③探索公募基金投顾试点对财富管理市场的转型意义及AI赋能投顾业务的应用前景。 阅读建议:本文内容详实,涵盖了财富管理市场的多个方面,建议读者重点关注中国财富管理市场的现状发展趋势,特别是私人银行、银行理财、公募基金、券商资管等机构的具体发展情况,以及公募基金投顾试点和AI赋能投顾业务的创新模式。
6.0版更新说明: 1.根据2024年鉴整理,数据更新至2023年 2.新增指标,当前214个指标 5.0版更新说明: 数据更新至2022年 4.2版更新说明: 1.更新2021年部分指标数据 4.0版更新说明: 1.数据更新至2021年 2.调整部分旧指标 3.新增指标,当前190个指标 3.0版更新说明: 1.数据更新至2020年 2.调整部分指标,当前174个指标 2.4版更新说明: 1.更新部分缺失值 2.将数据转为平衡面板 3.填补升级。内含原始版本、线性插值、ARIMA填补三个版本数据 一、数据介绍 数据名称:中国城市数据库 数据来源:中国城市统计年鉴1991-2024年、地方统计局 数据年份:1990-2023年 数据范围:300个地级市(包括直辖市) 样本数量:平衡面板10200条(300*34=10200) 更新时间:2025年2月,当前最新6.0版 二、整理方法 第一,识别年鉴。利用NLP算法识别《中国城市统计年鉴》,并转为面板数据 第二,完善数据。对比主流数据库、地方统计局,进一步完善城市数据 第三,统一地区。匹配民政部编码,统一使用2019年编码和地区名称 第四,统一单位。对不同单位的情况,进行单位换算 第五,人工验证。得到所有指标的面板数据,并人工抽样验证 第六,平衡面板。将非平衡面板转为平衡面板数据 第七,线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版 第八,ARIMA填补。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版 最终,保留原始版本、线性插值版、ARIMA填补版
内容概要:本文详细介绍了如何在HarmonyOS开发中使用Tabs组件构建底部页签。首先,文章强调了底部页签在提升用户体验和操作便捷性方面的重要性,随后介绍了Tabs组件的基本结构,包括TabBar和TabContent。接着,文章逐步引导读者搭建开发环境,包括安装DevEco Studio和配置项目。在此基础上,文章展示了Tabs组件的基础用法,如简单示例和组件结构解析。接下来,文章深入探讨了属性设置,如导航位置、滑动功能、动画时长等,以实现个性化定制。此外,文章还介绍了高级技巧,如滚动导航栏和自定义导航栏的实现方法。最后,通过一个电商应用的实际案例,展示了如何在实际项目中应用Tabs组件,以及开发过程中需要注意的事项和常见问题的解决方法。 适合人群:具有一定HarmonyOS开发基础的研发人员,尤其是希望提升用户交互体验的应用开发者。 使用场景及目标:①了解如何使用Tabs组件构建美观且实用的底部页签;②掌握底部页签的属性设置和高级技巧,如滚动导航栏和自定义导航栏;③解决开发过程中遇到的兼容性、布局适配和内存优化等问题。 其他说明:本文不仅提供了详细的代码示例和技术指导,还鼓励读者在实际项目中应用所学知识,不断探索HarmonyOS开发的更多可能性。通过学习本文,开发者可以更好地理解HarmonyOS开发的特点和优势,为用户打造更加出色的交互体验。
内容概要:本文深入介绍了鸿蒙HarmonyOS Navigation子页面的开发,涵盖其基本概念、构成元素、开发步骤及应用场景。首先,文章阐述了Navigation组件在HarmonyOS应用中的重要性,它作为路由容器组件,支持多种显示模式(如自适应、单页面和分栏模式),以适应不同设备和用户需求。其次,详细解释了NavDestination(子页面的核心载体)和NavPathStack(掌控子页面路由的关键)的作用及其工作原理。接着,介绍了开发前的准备、项目结构规划、路由信息配置、子页面代码编写等具体开发步骤。此外,文章还探讨了页面跳转、参数传递、返回值处理及路由拦截等高级功能,并通过实际案例(如华为应用市场)展示了其应用效果。最后,总结了常见问题及其解决方法,并展望了Navigation子页面在未来应用场景中的潜力。 适合人群:具备一定编程基础,尤其是对HarmonyOS应用开发感兴趣的开发者,特别是有一定经验的工作1-3年研发人员。 使用场景及目标:①帮助开发者理解如何使用Navigation组件构建高效、便捷且用户体验良好的应用导航系统;②指导开发者掌握页面跳转、参数传递、路由拦截等核心技术,以实现复杂业务逻辑;③通过实际案例分析,为开发者提供应用开发的实战经验。 阅读建议:本文不仅提供了详细的代码示例和技术讲解,还强调了实际开发中的注意事项和常见问题的解决方案,因此在学习过程中,建议结合实际项目进行实践,同时关注官方文档和社区资源,以加深理解和提高开发技能。
内容概要:《绿色转型美丽乡村——汾渭平原地区低碳乡村案例集》由西安空气侠环保科技有限公司编写,北京市企业家环保基金会支持,聚焦汾渭平原地区乡村低碳发展的典型实践。报告梳理了国内外相关理论研究及政策背景,展示了中央地方在低碳乡村发展方面的政策措施。通过五个典型案例,包括芮城县庄上村的“光储直柔”模式、铜川耀州区克坊村的“光伏+普惠金融”、浮山县臣南河村的循环经济模式、澄城县权家河村的“风光储一体化”以及麟游县紫石崖村的“光伏+生态养殖”,详细分析了这些案例的技术路线、项目成效、主要政策、典型经验和存在问题。报告总结了清洁能源在乡村低碳发展中的核心地位,强调了因地制宜发展策略的关键作用,并指出了多重效益综合追求的重要性。 适合人群:从事环保、农业、能源领域研究的专业人士,以及关注乡村低碳发展和可持续发展的政策制定者和社会学者。 使用场景及目标:①为全国其他地区开展乡村能源转型实践提供有益的借鉴;②助力推动我国乡村低碳发展,为实现碳达峰、碳中和目标贡献积极力量;③为政策制定者提供决策参考,促进乡村绿色转型和乡村振兴战略的实施。 其他说明:报告由多家单位参编,感谢北京市企业家环保基金会提供资金支持。文中内容及意见仅代表作者的个人观点,北京市企业家环保基金会的立场或政策无关。报告期望为全国其他地区开展乡村能源转型实践提供有益的借鉴,助力推动我国乡村低碳发展。
内容概要:本文深入探讨了中国品牌自2020/21年以来在全球市场的发展状况,基于Totem Media发布的2025年中国品牌走向全球报告。报告指出,中国品牌在全球社交渠道、电商平台和官方网站的流量、关注者数量和互动方面取得了显著增长。2024年以来,中国品牌在市场准入、社交媒体内容质量及DTC网站功能等方面有所提升。报告还列举了多个领域的“潜在冠军”,如安克、Ecoflow、大疆等。文中分析了不同地区(如北美、欧洲、中东、非洲等)对中国品牌的接受度及其面临的挑战,强调了本地化、品牌塑造和数字化营销的重要性。此外,报告提出了中国品牌在全球市场取得成功的关键策略,包括应用数字化、本地化、倾听客户、构建有针对性的优势和合作。 适合人群:对中国品牌国际化感兴趣的商业人士、市场营销专家、品牌管理者及研究人员。 使用场景及目标:①帮助品牌管理者制定全球化战略;②为市场营销专家提供数据支持和趋势分析;③为研究机构提供有关中国品牌国际化的参考依据。 其他说明:报告强调了中国品牌在不同地区和行业的表现,提供了详细的排名和数据分析,有助于理解中国品牌在全球市场的地位和发展路径。同时,报告还指出了中国品牌在全球市场面临的挑战,如地缘政治因素、市场竞争和品牌认知度等,并给出了应对策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值