ads distribution bias/shift相关论文

最新推荐文章于 2023-09-19 15:40:00 发布

KpLn_HJL

最新推荐文章于 2023-09-19 15:40:00 发布

阅读量470

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sinat_41679123/article/details/115833388

版权

文章目录

Task-distribution-aware Meta-learning for Cold-start CTR Prediction
Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction
A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback
Detecting and Correcting for Label Shift with Black Box Predictors
Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction

Task-distribution-aware Meta-learning for Cold-start CTR Prediction

cold-start问题主要是两方面，第一，怎么给几乎没见过的ad做预测，第二，怎么给只见过很少的样本预测更准

解决方法：把id embedding换成side-information

Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction

这篇感觉重点在label上

A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback

在目标函数前面增加一个importance weight用来调整delayed feedback，weight叫做feedback shift importance weight/FSIW，此时目标函数为：
$\min \hat G^{(n)}_{IW} \equiv \frac{1}{n} \sum_{i=1}^n \frac{P(C=y_i|X=x_i)}{P(Y=y_i|X=x_i)}L(x_i,y_i;\hat f(x_i, \theta))$

变量定义

变量名	变量意义
$X$	feature
$\in \{0, 1\}$	1表示在training term中出现了转化
$\in \{0,1\}$	1表示是否出现了转化
$\in \{0, 1\}$	1表示在training term中样本的label是正确的
$\in \R$	click和之后的转化之间的time delay，如果 $C = 0$ ，则 $D$ 无定义
$\in \R$	click和training time之间的time

positive sample一般没什么问题， $\iff S = 1, C = 1$ 。但是negative sample包含了错误的样本和正确的样本，即： $\iff C = 0\text{ or }S = 0$
有：
$\begin{aligned} P(Y=1|X=x) = P(C=1|X=x)P(S=1|C=1,X=x) \\ P(Y=0|X=x)=P(C=0|X=x) + P(S=0|C=1,X=x) \end{aligned}$

训练的时候是 $P (Y ∣ X)$ ，测试的时候是 $P (C ∣ X)$ ，这个条件概率的差异就是feedback shift

用优化器优化泛化误差：
$\equiv \mathbb{E}_{(x,c) \sim (X,C)}[L(x,c;\hat{f}(x, \theta))]$
其中 $\theta$ 是模型的参数， $\theta^* = \argmin_{\theta \in \Theta}G$
由于 $c$ 是在training sample中观测不到的，所以通常的泛化边界 $G$ 会改而使用 $y$ 来代替 $c$ ，此时：
$\hat G^{(n)} \equiv \frac{1}{n}\sum_{i=1}^nL(x_i,y_i;\hat{f}(x_i, \theta))$
当 $c_i$ 和 $y_i$ 是相同分布的时候，最小化 $G$ 和 $\hat G$ 就是一样的，但是在delayed feedback中这俩是不一样的分布，因为 $\leq P(C=1|X=x)$

引入一个feedback shift importance weight/FSIW，其定义为：
$\hat G^{(n)}_{IW} \equiv \frac{1}{n} \sum_{i=1}^n \frac{P(C=y_i|X=x_i)}{P(Y=y_i|X=x_i)}L(x_i,y_i;\hat f(x_i, \theta))$