路由
更合理的分配token到expert,以及Gate更合理的Combine结果。
指标:
MoE指标除了任务精准度还有,提升专家激活率。
训练目标:
MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。
参考文献:
Multi-Head Mixture-of-Experts_Life Records的技术博客_51CTO博客 #可以参考这篇文章搞实验指标
路由
更合理的分配token到expert,以及Gate更合理的Combine结果。
指标:
MoE指标除了任务精准度还有,提升专家激活率。
训练目标:
MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。
参考文献:
Multi-Head Mixture-of-Experts_Life Records的技术博客_51CTO博客 #可以参考这篇文章搞实验指标