多任务学习模型详解:Multi-gate Mixture-of-Experts(MMoE ,Google,KDD2018)

本文详细解析Google于KDD2018发表的Multi-gate Mixture-of-Experts(MMoE)模型,针对多任务学习中任务相关性的问题。MMoE通过设置gate和多个专家网络,改善了共享底层表示层在不相关任务中的效果,实验结果显示在低相关性任务上优于其他方法。
摘要由CSDN通过智能技术生成

原文地址:多任务学习模型详解:Multi-gate Mixture-of-Experts(MMoE ,Google,KDD2018),首发微信公众号,现在转到CSDN上~

欢迎关注我的公众号,微信搜 algorithm_Tian 或者扫下面的二维码~

现在保持每周更新的频率,内容都是机器学习相关内容和读一些论文的笔记,欢迎一起讨论学习~


上篇文章介绍多任务学习的背景知识,其中提到了相关任务这一概念。那么我们知道,相关性强的任务,使用多任务学习会有不错的效果,而相关性没那么强的任务,在多任务学习时表现不佳。

但是在实际应用中很难讲要进行多任务学习的任务是否足够相关,为了解决多任务学习在相关性不强的任务上效果不够好的问题,Google在2018年KDD上发表了一篇文章:

Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

视频简介的youtube地址:

https://www.youtube.com/watch?v=Dweg47Tswxw

一个用keras框架实现的开源地址:

https://github.com/drawbridge/keras-mmoe

本篇博文根据原论文内容及我自己的理解,准备从三方面介绍:

1. challenge in MTL(文章motivation)

2.MMoE框架&details

2.1 Shared-bottom Multi-task Model & MoE layer

原始模型

MoE layer

2.2 MMoE框架&参数更新细节

3.实验结果

3.1 人工合成数据集

3.2 UCI census-income dataset

3.3 Large-scale Content Recommendation


1. challenge in MTL

在多任务学习时,同时学习多个相关任务,具有明显优势。


如下图所示,假如有这样两个相似的任务:狗的分类模型和猫的分类模型。在单任务学习中,他们都拥有比较接近的底层特征,比如皮毛颜色啦、眼睛颜色啦、耳朵形状啦等等。

由于多任务学习本质上是共享表示层,任务之间互相影响。那么在多任务学习中,他们就可以很好地进行底层特征共享。

但是对于不相似的任务来说,如下图,汽车的识别和狗的识别,他们的底层表示差异很大,共享表示层可能就没那么有效果了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值