多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

1 篇文章 0 订阅
1 篇文章 0 订阅
MMOE是一种改进的多任务学习方法,它扩展了经典的MOE结构,通过引入多个门网络来捕捉不同任务间的差异性。相比于硬共享和MOE结构,MMOE能更好地优化任务间的冲突,尤其在任务相关性较低时表现更优。每个子任务拥有独立的门网络,允许更灵活地选择专家网络组合,从而减少任务间的互相干扰。实验表明,MMOE在大规模推荐系统等应用场景中展现出更好的性能。
摘要由CSDN通过智能技术生成

简介

针对多任务学习的应用场景,MMOE论文提出了多门多专家的混合结构的多任务学习方法,如下图c所示。针对其他的经典算法,比如a-硬共享share-bottom结构的方式,引入了一组不同的专家网络;针对b-MOE结构,扩展了门网络的数量,使得网络结构对于多任务的相关性较低时,能够更好的优化。

模型

专家组合

MMOE可以看作MOE模型(专家组合模型)的扩展。其中MOE可以表述为

其中,g(x)_i是第i个专家模型f(x)_i的概率,所有专家模型的概率和为1。n个专家模型作为一组专家模型,不共享参数。

 多门专家组合

基于MOE,我们提出了MMOE(多门专家)模型,主要目的是为了在不显著增加参数计算量的前提下,捕获不同任务的差异。相对于MOE,其主要差别是,针对不同的子任务k,增加了其对应的门网络g(x)_k,表示为

其中专家网络,由全连接网络+RELU激活函数构成,门网络相对较浅,由LR+softmax激活函数构成。

其中W_gk为线性变换的可训练参数。

多任务影响

由于多门专家网络,允许每个子任务更灵活的选择一组专家的线性组合作为最终的优化目标,因此任务与任务之间的“跷跷板”现象会得到一定的缓解,当子任务间的相关性差异较大时,效果:多门专家模型>专家模型>bottom-share模型。

因为bottom-share因为共享底层网络的原因,当子任务间的差别较大时,任务与任务间会形成冲突;MOE虽然通过gate网络对多专家模型进行了选择,但只是利用了多专家更强的学习能力,但还是公用gate,没有解决不同子任务间的冲突;MMOE的多任务通过使用不同的gate网络,控制了不同子任务中,专家网络的权重,在一定程度减少了子任务间的互相冲突。

实验效果

真实大规模推荐系统的参与度。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值