©NLP论文解读 原创•作者 |小欣
导读
本文重点对2021年KDD的一篇关于多任务学习的论文(也是美团在多任务学习领域的一个应用)《Modeling the Sequential Dependence among Audience Multi-step Conversions with Multi-task Learning in Targeted Display Advertising》进行解读。
在该论文的多任务学习部分,作者对前面经典的多任务学习模型做了简单的回顾,而且,该论文也是在之前的经典多任务学习模型的基础上进行改进的。
所以,本文第一部分也先带大家回顾一下经典的多任务学习模型,第二部分再解读美团的这篇新的论文。
经典的多任务学习模型回顾
(MLP方向)
经典模型一:MMOE模型
(由Basemodel到OMOE到MMOE))
该模型源于论文:
《Recommending What Video to Watch Next: A Multi-task Ranking System》,由谷歌提出。
1、Hard parameter sharing:
共享层+Tower层:
不同任务共用shared层的神经网络,不同task训练不同的tower层网络(和图中对应的(task-specific layers)。
该模型适用于task之间不冲突的问题(要求task 相似),如果task不相似,那么共享层只会使目标的预测变得糟糕。
2、Soft parameter sharing:
该模型并没有共享层,每个任务训练自己的模型,加入不同模型之间参数向量距离的正则化项。
从而使得训练中不同模型之间参数趋于相似。实际上也是利用了不同task之间的相似性,来对不同模型进行约束,这种模型由于不共享底层,现在实际应用中较少使用。
那么共享底层参数的意义是什么呢?共享底层参数可以减少单独训练模型的参数数量,有利于防止过拟合,提高模型训练速度。
更重要的是,共享底层参数能够挖掘出不同任务之间的关联并互相利用这种关联来对不同的任务训练提供帮助,这是单任务学习不能做到的。
要注意,模型要求task之间类似,只有当task之间类似(不存在冲突)时,底层共享网络才有意义,为什么要求多任务(task)之间要有相似性呢,两张图的例子清晰易懂:
任务相似的情况下:
当task之间存在冲突或者说相差甚远时,底层共享网络将失去它的意义:
下面开始介绍MMOE模型,MMOE模型就是基于hard parameter sharing的基础模型上改进的。