仅以此文章记录感觉不错的MoE学习文章。 1. Mixture-of-Experts (MoE) 经典论文一览 - 知乎 怎么说呢,这篇文章非常好,他写了梯度回传的时候为什么会用log,从头开始梳理MoE(1991年的文章,但是写的很好)