- 为什么有多目标
- 单目标无法衡量系统的好坏
多任务学习
-
样本加权:经验将另外一个目标折算到base 目标上。按照比例对样本加权。(在较少的损失base 目标的基础,提高其他目标)
- 原始损失函数 交叉熵损失 F=-ylog(y_t)-(1-y)log(1-y_t);加权损失函数 F_w = -(1+C)ylog(y_t)-(1-y)log(1-y_t)
- BP 时,对于权重为C的目标,损失增加*C,导数更新偏向加权目标(加权正样本与不加权正样本之间的差异会影响原始模型在基础label 的学习:有偏的,导致基础模型的效果会出现一定幅度的降低)
-
多个模型(各自目标)进行bagging (类似bagging 的思想,本质是多目标的规则加权)
-
shared-bottom 结构 (相关性比较强的任务)
- 归纳性偏好: 先验的模型结构,稀疏性以及特征共享层的鲁棒性;缺点,限制了模型的差异性。
- 代表模型:esmm (转化之间有比较强的关系 ctr*cvr )
- esmm 模型共享是 embedding 层的共享,这样的好处的是embedding 是在全样本下进行训练,解决select bias ,对于非id 的特征 需要共享吗,需要共享(都是解决select bias 问题)
问题
-
1、样本选择偏差问题:训练数据为点击转化数据