Time:2018
Author:Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, Ed H. Chi
Abstract
MMoE从数据中学习目标之间的关系。MMoE是MoE模型的延伸,expert submodels对所有的目标是共享的,再使用gating network来优化单个目标。
在目标之间的相关性较低的情况下,MMoE的效果也更好,并且,在多次训练中,MMoE都收敛到更好的loss,这说明了,在训练non-convex DNN时,模块化(modulation)和gating机制都能提升训练。
Model Architecture
MoE
MMoE
task k的输出: