综述
Grad Norm
梯度归一化
https://mp.weixin.qq.com/s/RIxxtMqdb6yJKLorg_WjrA
https://www.cnblogs.com/douzujun/p/14633524.html
多任务学习的多个权重改如何调节
梯度修剪,保证每个任务的梯度在同一个数量级
https://blog.csdn.net/Leon_winter/article/details/105014677
多场景论文
DADNN: Multi-Scene CTR Prediction via Domain-Aware Deep Neural Network
One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction
https://zhuanlan.zhihu.com/p/361113529
摘要
ple
https://zhuanlan.zhihu.com/p/291406172
代码
摘要
多任务学习在推荐系统中很常用,然而,多任务模型经常因为现实场景中任务之间的复杂联系,而效果不好。此外,我们观察到一个现象,一个任务的效果提高了,另外一个任务的效果反而会下降。为了解决这些问题,他们提出了ple这个模型:一个创新的共享层结构。ple把共享层分开,采用了一个创新性的机制去提取分开的语意信息,提高了联合训练的效率和不同任务之间信息共享的效率。
ple应用在了复杂的关系中,和简单的关系中,包含2个关系的和多个关系的。例如,腾讯视频,
跷跷板现象:
https://zhuanlan.zhihu.com/p/348294790
多任务学习相对于多个单任务学习的模型,往往能够提升一部分任务的效果,同时牺牲另外部分任务的效果。
(不同的任务用不同的特征?好像mmoe论文里也提到过)
1.绪论
同时满足用户满意度和参与度,例如点击,观看完ÿ