MMoE论文研读

VIP文章 napoleonhoo

于 2022-09-18 19:54:19 发布

阅读量166

点赞数

分类专栏：深度学习模型文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/napoleonhoo/article/details/126922145

版权

MMoE论文研读

论文：Modeling Task Relationships in Multi-task Learning With Multi-gate Mixture-of-experts

要解决的问题

常用的多任务（multi-task）模型对于任务之间的关系很敏感。

目标

构建一个模型，可以同时学习多目标、多任务。捕捉到任务的不同，且不显著增加更多的模型参数（和Shared-Bottem多任务模型相比）。

MMoE简介

MMoE对任务之间的关系建模，学习任务特殊性与共享的表示之间进行权衡。

它使得参数可以自动的分配，来学习任务间共享的信息，或任务独特的信息。

MMoE很容易训练，并且在几个回合就会收敛到一个比较好的损失。

通过共享expert子网络，采用MoE结构来进行多任务学习，同时训练一个gate网络来优化每个任务。

图1-a是shared-bottom结构，在input层之后的多个bottom层，由各个task共享，在这之上，每个task都有一个单独的tower网络。图1-c是MMoE网络，有着一群叫做expert的bottom网络。gate网络把输入的特征作为输入，输出集合不同权重的softmax gate，使得不同的任务区别使用不同的expert。整合后的expert被传输到不同的tower网络。

MMoE 图1

网络结构详解

1 Shared-Bottom Multi-task Model

共 $K$ 个任务，模型包含了一个shared-bottom网络，用函数 $f$ 表示，tower网络用 $h^k$ 表示，其中 $k = 1, 2, 3, ... K$ 。任务 $k$ 的输出表示为：
$y_k=h^k(f(x))$

2 Mixture-of-Experts

原始MoE网络可以用如下公式表示：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MMoE论文研读

MMoE论文研读
复制链接

扫一扫

专栏目录

napoleonhoo CSDN认证博客专家 CSDN认证企业博客

码龄11年

23: 原创

37万+: 周排名

25万+: 总排名

5778: 访问

: 等级

252: 积分

1: 粉丝

1: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUDA by Example 笔记(零): 总体介绍
CSDN-Ada助手: 恭喜您写了第20篇博客！您对于CUDA by Example的总体介绍做得非常好。持续创作20篇博客不容易，相信您已经积累了丰富的经验和知识。接下来，我建议您可以考虑深入剖析其中的某个具体案例，或者探讨一些高级的技术细节，以便进一步拓展读者们的视野。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。