Progressive Layered Extraction (PLE)

最新推荐文章于 2024-10-21 11:58:35 发布

与光i

最新推荐文章于 2024-10-21 11:58:35 发布

阅读量1.4k

点赞数

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/dawnyi_yang/article/details/121063928

版权

摘要

多任务学习（MTL）可以通过务之间的信息共享来提高学习效率。但现有的 MTL 模型经常以牺牲其他任务的性能为代价来改进某些任务，当任务相关性很复杂并且有时依赖于样本时，即与相应的单任务模型相比，多个任务无法同时改进，论文中称之为跷跷板现象。为了解决该问题，论文提出了的PLE的多任务学习模型。PLE将shared的部分分开，用于特定任务的训练。采用一种渐进式路由机制，逐步提取和分离更深层次的语义信息，提升联合学习的效果和多任务间的信息路由。
论文地址：Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations

网络结构

PLE模型使用了CGC模块，结合了多层门控机制。
CGC模块：
Alt

图3

如图3所示，在底层有许多expert模块，顶层有任务独享的tower模型。每一个expert模块都是由许多expert组成。tower的网络也可以是多层MLP，其深度和宽度也是超参数。CGC中共享的expert学习共享的pattern，任务独享的expert学习任务独享的知识。每一个tower网络吸收来自共享和独享的知识，也就是说，共享的expert被所有任务影响，独享的expert被任务独享的tower所影响。在CGC中，独享和共享的expert通过一个门网络来选择性的融合。门控网络是一个单层的FNN，激活函数为softmax，输入是计算向量加权和的选择器。
对比MMOE，CGC移除了任务tower网络与其他任务独享的expert之间的联系，可以使不同的tower网络专注于学习不同的知识。使用门网络去融合不同的expert的输出，CGC可以实现更加灵活的balance。
PLE layer：
Alt

图4

通过使用门机制去结合共享和独享的expert的知识，传到下一层。PLE是在CGC基础上考虑了不同Expert的交互，可以看作是Customized Sharing和ML-MMOE的结合版本。
下层模块中增加了多层Extraction Network。在每一层Extraction Network，共享Experts不断吸收各自独有的Experts之间的信息，而任务独有的Experts则从共享Experts中吸收有用的信息，具体计算和CGC一样。

实验

线上ABtest：
论文在线上进行了4周的ABtest实验，主要优化目标是VCR和VTR，结果如下：

MTL模型比单任务模型效果更好；
CGC和PLE的效果均显著优于其他模型，PLE效果最好。

除了VCR和VTR，作者还引入了SHR(分享率)和CMR(评论率)两个任务到MTL框架中，比较了CGC和PLE的效果：
CGC和PLE在多任务学习中的效果均显著优于单任务模型；
CGC和PLE在超过两个子任务的多任务学习中，可以有效地避免seesaw phenomenon和负迁移；
PLE的效果优于CGC。

expert分析：
为了公平对比，作者采用了single-level的PLE和ML-MMoE，然后可视化了CGC、MMoE、PLE和ML-MMoE的expert的utilization，如图5所示。
Alt