多任务推荐（二）KDD2018｜谷歌多任务推荐模型---MMoE

Blank_spaces

于 2021-05-11 12:00:00 发布

阅读量998

点赞数

文章标签：机器学习人工智能深度学习大数据计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Blank_spaces/article/details/116678452

版权

本文介绍了谷歌在2018年KDD会议上提出的MMoE模型，用于多任务推荐。该模型解决了传统Shared-Bottom模型在任务相关度低时性能下降的问题，通过多门控网络分配专家模块权重，捕捉任务间的共享和特定信息，提高预测性能，同时减少参数数量。实验表明，MMoE模型在多种数据集上表现优秀。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

这是多任务推荐第二篇，由Google发表在2018年KDD上的论文。最近在尝试如何更为简单的概括论文提出的背景、动机、创新点以及模型结构，并且搭建一个简单的多任务推荐包（MTRec，起步阶段，见文章末尾）。

本文约1.6k字，预计阅读8分钟。

概要

推荐系统有时需要在同一时间优化多个目标，例如CTR与CVR。如果多个目标分若干个模型，则会损失任务之间的相关性信息，因此多任务推荐也是一个重要的研究方向。

本文主要针对的是在多任务推荐领域中，一个关键性的「问题」：

❝
当任务之间相关度较低时，传统多任务推荐模型（Shared-Bottom model，见下图(a)）性能就会明显降低（相比于高相关）。
❞

「原因是」任务差异带来的内在冲突实际上会损害某些任务的预测，尤其是在所有任务之间广泛共享模型参数时（Shared-Bottom）。一些研究者也给出了解决方法，例如任务之间参数并不共用，各自学习，然后增加正则化的限制（L2-Constrained）。不过作者指出，这种做法虽然在一定程度上提升了模型的性能，但增加了大量的学习参数，对于大规模数据下的推荐模型来说很难拟合。

因此作者提出了MMoE（Multi-gate Mixture-of-Expert）模型来解决上述问题，并且无需大规模学习参数。主要的改进措施有两点：

Shared-Bottom部分采用多个Expert模块（就是前向传播网络，NN模型），因为集成的子网络能够提升模型的性能，并且MoE模块中每个Expert可以并行训练；
通过多个门控网络（multi-gate network，任务的数量），来自动分配参数权重给每个Expert，来捕获共享任务信息与特定任务信息，区分每个任务之间的关系（其实这和Attention机制是同一个道理），无需增加额外的参数（当然，在门控网络中也可以采用简单的NN模型）；

作者通过三个实验（构造的虚拟数据、Census-income数据集、大规模推荐数据集）证明了任务相关度对模型性能的影响以及MMoE的有效性。

模型结构

下图，(c)是本文提出的模型，(a)(b)进行对比，假定个任务：

「(a)Shared-Bottom model」：模型由共享底部网络（函数表示）和个塔网络（表示）组成，为第

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。