经典多任务论文PLE解读

腾讯:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations

背景与问题:

多任务学习有两个问题,一个是跷跷板一个是负迁移

  • 跷跷板现象:在多任务学习中,当任务之间的相关性较复杂时,可能会出现提高其中一个任务的效果会伴随其他任务效果的下降的情况,也就是说,**多个任务无法同时改进,**不如单独建模的效果。
  • 负迁移现象:负迁移是指在多任务学习中,任务之间的相关性不强,或者甚至是有冲突的情况下,使得学习性能下降。

总的来说,这两种现象的主要区别在于:

  • 跷跷板现象是指在提升一个任务的性能的同时,可能会牺牲其他任务的性能。
  • 负迁移现象则是指多任务学习的效果不如单独训练各个任务的效果,共同训练模型导致任务的效果下降。也就是说,相关性不强的任务之间的信息共享,会影响网络的表现。这种现象在任务之间的相关性不强,或者甚至是有冲突的情况下更为明显

对于负迁移问题:

cross stitich学习静态线性组合来融合不同任务的表征,但不能捕获样本依赖性。

MMOE使用门控网络结合专家网络来处理任务的相关性,但是忽略了专家网络间的差异性和交互信息。

为了解决上述问题,提出PLE(Progressive Layered Extraction)来更好地使用先验知识来捕获复杂的任务相关性。使用共享专家和任务专用专家来减轻普通和专用的信息中有害参数干扰。PLE使用多层专家和门控网络,从底层的专家网络提取更加有深度的信息并在高层更好地分离任务专用参数。

相关工作

腾讯MTL Ranking System

腾讯新闻的 MTL ranking system :一个根据用户反馈进行 news 和 videos 推荐的内容平台。

建模的目标包含用户的多种不同的行为:点击,分享,评论等。每次请求候选的排序分根据下面的公式计算:

图片

其中,w 表示每个预估行为的相对重要性,f(video_len)表示一个非线性函数,VTR表示有效观看率,VCR表示完播率,SHR表示分享率,CMR表示评论率。

图片

其中 VTR 和 VCR两个在线指标。VCR 是使用 MSE 损失训练的回归任务,用于预测每个视频的完播率。 VTR 是一种用交叉熵损失训练的二元分类任务,用于预测有效播放的概率(同时超过一定观看时间阈值的播放认为是有效播放),两者之间有比较复杂的关系:

  • VTR的 label 与播放动作和VCR有关系,因为只有播放了且观看时长大于阈值视为有效观看。
  • 播放的分布复杂,在WIFI环境下自动播放的概率明显比较高,相对地,其他需要手动点击播放的场景播放的概率较低。

正因如此,同时对 VCR 和 VTR 进行建模使得“跷跷板现象”比较明显

图片

参数共享

图片

硬参数共享:如图(a)与(d)MMOE,多个任务间共享网络的相同的隐藏层,只在网络输出部分分叉做不同任务

不对称共享:如图(b)基于 hard-sharing 的非对称参数共享结构,有一部分信息可以被共享,另一部分信息被独享。其信息融合方式包括concat,sum-polling,average-pooling

定制共享:如图©,两个塔各自有一个独有的 expert,并且还有一个共享的 expert(浅蓝色)。显式分离 shared 和 task-specific 参数来避免可能存在的内在冲突和 negative transfer。

方法

提出PLE

  • 分开共享专家和专用专家,消除有害参数的干扰
  • 多层expert和gate来融合更加抽象的表征
  • 采用渐进式分离路径来建模专家之间的交互,实现复杂关联任务的知识传递

CGC

CGC 是 PLE 的基础网络。CGC 和上面的 Customized Sharing 网络的区别在于增加了一个门控网络。共享专家参数受所有任务影响,任务专家只受特定任务的影响,两种专家通过gate选择性融合

图片

底层网络:包含一些 expert 模块, 每个expert 模块由若干子网络构成,这些子网络称作 experts,每个模块包含多少个 expert 是可调节的超参。其中 shared experts 负责学习 shared patterns,task-specific experts负责学习task-specific patterns。

上层网络:一些 task-specific 塔 ,网络的宽度和深度都是可调节的超参。每个塔同时从 shared experts 和各自的task-specific experts 中学习知识。

门控网络:Shared experts 和 task-specific experts 的信息通过门控网络进行融合。门控网络的结构为单层的前向网络,激活函数为softmax 函数。

门网络公式

图片

x是输入

图片

S(x)是选择矩阵,把共享专家和第k个任务的专用专家的输出拼接起来起来

图片

输出,t是tower层

图片

CGC移除了特定任务塔和专家与其他任务的联系,减少干扰,同时结合门网络动态融合输入表征的优点,CGC更好地处理任务间的平衡和样本依赖性。

PLE

图片

PLE为多层CGC的连接成为多层提取网络,PLE利用多层网络抽取高阶的共享信息。除了 task-specific experts 有门控网络,抽取网络也对当前层所有的 experts 利用门控网络来融合得到新的 shared experts。因此,PLE的低层没有完全把子任务的参数区分开,而是在高层逐渐地分离。底层的抽取网络对于高层的抽取网络来说,是代替CGC中原始输入的存在,而这个替代可以带来更多的信息有助于更高层网络的学习。

图片

图片

正因为有了多层的 experts 和 gating networks,PLE 可以抽取并融合每个子任务更深的表达来提升泛化性。

Routing 策略在 MMoE 中是全连接层,在 CGC 中是 early separation。PLE采用一种渐进式分离 routing 的方案来从所有的底层 experts 中获取信息,抽取成高阶的共享知识,并逐渐分离 task-specific 参数。

Loss

一般来说,MTL 的损失函数的设计方式是,针对不同的子任务,设置不同的权重,而后再把所有子任务的损失按照权重加权得到。

图片

但是在本场景中,样本空间如下

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值