Scaling Diffusion Transformers to 16 Billion Parameters
本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在保持与密集网络竞争力的同时,实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计,DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。
DiT-MoE通过将DiT中的部分密集前馈层替换为稀疏MoE层,实现了条件计算。每个图像块的标记被路由到一组专家
本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在保持与密集网络竞争力的同时,实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计,DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。
DiT-MoE通过将DiT中的部分密集前馈层替换为稀疏MoE层,实现了条件计算。每个图像块的标记被路由到一组专家