CVR预估论文阅读笔记：一次性解决三大难题

最新推荐文章于 2024-06-24 18:00:51 发布

面朝代码，春暖花开

最新推荐文章于 2024-06-24 18:00:51 发布

阅读量1.1k

点赞数 1

文章标签：人工智能深度学习推荐系统 cvr

本文链接：https://blog.csdn.net/spring_sky_/article/details/117165644

版权

本文介绍了《Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction》论文，提出全空间建模方法ESDF，以解决CVR预估中的数据稀疏、样本选择偏差和延迟反馈问题。模型包括点击率、点击转化率和延迟反馈模型，通过联合训练优化预测准确性和稳定性。

摘要由CSDN通过智能技术生成

论文标题：《Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction》

论文链接

欢迎关注我的公众号，了解算法岗面经、深圳教师招聘备考指南、程序猿的技术之旅与浪漫生活~

1 总述

本文提出了一种全空间建模的方法（ESDF），同时解决了CVR预估中的3大难题：

数据稀疏问题。即便对于很大数量的曝光样本，点击样本的占比往往较小，其中转化数量更小，ESDF对全空间建模，让所有样本都参与训练，并且CVR与CTR共用向量表示，使得转化样本极少的物品向量也能够在曝光的记录中被训练到。
样本选择偏差问题。一些CVR模型仅对曝光样本进行训练，而在全样本空间上进行预测，使用的数据分布不同影响模型效果。ESDF使用全空间样本，解决了这一问题。
延迟反馈问题。训练时数据中可能存在很多会在未来转化的样本，但被标记为阴性，即假阴性标签。

2 符号介绍

X：用户及物品的特征

Y：01变量，是否发生点击

Z：01变量，是否已经发生转化

C：01变量，是否最终发生转化

D：点击和转化之间的时间延迟

E：点击发生距现在的时间间隔

物品经历的流程为：impression—>click->pay，Y表示impression后是否click，C表示click后是否会pay，而Z表示click后是否已经发生pay，若Z=1则必有C=1，但反之不一定。

3 模型介绍

模型框架图：

模型共由三个“塔”组成，第一个预估点击率，第二个预估点击转化率，第三个为延迟反馈模型。

3.1 转化模型

最终想要预测的是点击转化率：
$p C V R = P (C = 1 ∣ Y = 1, X = x, E = e)$
假设最终是否发生转化与E无关，将其拆解为：
$P(C=1|Y=1,X)=\frac{P(C=1,Y=1|X)}{P(Y=1|X)}$
将分子、分母分别记做pCTR(预估转化率)和pCTCVR(点击且转化率)。
满足： $p C T C V R = p C T R * p C V R$
框架图中的前两个“塔”分别用来预测pCTR和pCVR，其中pCVR是转化模型的终极目标，其他部分只是用来辅助这一模块进行全空间建模。

这两个模型共用参数，这一做法有以下几点优势：

很多物品可能几乎没有被点击过，如果仅仅使用点击样本来训练CVR模型（即仅保留第二个塔），这些物品的向量很难被训练到，但通过两个塔共享参数可以使曝光未点击的样本向量在CTR模型中被更新。
CTR与CTCVR模型均为全空间建模，因此不存在数据选择偏差。
如果两个模型不在一起训练，很有可能因为pCTR数值过小而导致分子与分子的比值大于1，因此联合训练能够缓解数值不稳定的问题。

3.2 延迟模型

为了使得模型具有更广泛的使用场景，不再假设延迟时间服从给定分布。

以天为单位，将延迟时间分箱为T+2个： $[0 ， T + 1]$ ，若点击后延迟时间在0到T则将样本分入第0到T的对应分箱中；若延迟时间大于等于T+1天，则全部分进T+1分箱，这种做法是合理的，因为T足够大时，T+1之后的数量很少，可以看做噪声。

第三个“塔”用以预测延迟日期，实际上是预测样本延迟日期属于每个分箱中的概率，通过softmax函数输出概率值。

$P (D = t ∣ C = 1, Y = 1, E = e, x) = F (g (x, e), t)$
其中g(x,e)是经过softmax函数后输出的T+2维向量，表示预测属于每个分箱的概率，而 $F(\alpha, t)$ 只是表示取向量 $\alpha$ 的第t个分量，后续将简记f(x, t, e)。

3.3 联合模型

使用上述两个模型计算Z与Y的联合概率，从而得到样本分布的似然函数。

Y与Z的取值有三种情况，可将样本下标分为三个集合：
$I_{1,1}=\left\{i|z_i=1 \& y_i=1,i=1,2,...,N\right\}$
$I_{0,1}=\left\{i|z_i=0 \& y_i=1,i=1,2,...,N\right\}$
$I_{0,0}=\left\{i|z_i=0 \& y_i=0,i=1,2,...,N\right\}$
使用到的参数分别来自三个“塔”： $\Theta =\left\{\theta_{ctr},\theta_{ctcvr},\theta_{delay}\right\}$ 。
似然函数：