模型提出
PLE模型的提出是为了解决多任务学习中的“负迁移”和“跷跷板板现象”。负迁移是指任务之间的相关性降低,会造成多任务学习的表现不增反降;跷跷板现象是指在多任务学习中一个任务的性能提升往往伴随另一个任务的性能下降。
模型结构
PLE模型的基础结构是CGC网络,通过堆叠多层CGC网络,构成PLE模型。
CGC网络结构如下:
CGC网络由“任务特定的专家网络”和“任务共享的专家网络”构成,任务特定的专家网络和任务共享的专家网络都可以包含多个专家。专家之间的输出通过门控单元结合。通过每个任务的任务塔进行预测。
PLE模型结构如下:
PLE模型由多层CGC网络构成,下一层任务特定的专家网络的输入是上一层任务特定的专家网络和上一层任务共享的专家网络的输出。
和MMOE的对比
可以看到MMOE模型任务塔的输入是所有专家的网络的集合,并没有区分任务特定的专家网络和任务共享的专家网络,PLE模型通过区分各个任务的输入,降低了训练时任务之间的影响,有效缓解了负迁移和跷跷板现象。
实验效果数据
多任务模型之间的对比:
PLE模型取得了优于MMOE的效果。
跷跷板现象分析:
MMOE在多任务学习中存在跷跷板现象,而PLE模型对两个任务均有提升。
专家网络利用率:
MMOE模型在不同任务中,每个专家利用比例相似,说明专家并没有对每个任务进行很好的区分。而PLE模型每个专家利用比例不同,对每个专家进行了有效利用。
附加改进:损失函数
PLE模型在多任务学习的损失函数上进行了两点改进。
1. 多任务学习常见的损失函数是多个任务的损失函数加权求和,但是每个任务的样本空间不同,所以每个任务只需在每个任务的样本空间上计算损失。δ表示样本i是否属于任务k的样本空间,为01变量。
2. 不同的训练阶段,每个任务的权重会发生变化,所以设置了两个超参,w表示任务k的权重,γ表示任务k在阶段t的系数。
参考文献
[1]. Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations(RecSys 2020)