CVR预估论文阅读笔记:一次性解决三大难题

本文介绍了《Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction》论文,提出全空间建模方法ESDF,以解决CVR预估中的数据稀疏、样本选择偏差和延迟反馈问题。模型包括点击率、点击转化率和延迟反馈模型,通过联合训练优化预测准确性和稳定性。
摘要由CSDN通过智能技术生成

论文标题:《Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction》

论文链接

欢迎关注我的公众号,了解算法岗面经、深圳教师招聘备考指南、程序猿的技术之旅与浪漫生活~欢迎关注我的公众号,了解算法岗面经、深圳教师招聘备考指南、程序猿的技术之旅与浪漫生活~

1 总述

本文提出了一种全空间建模的方法(ESDF),同时解决了CVR预估中的3大难题:

  • 数据稀疏问题。即便对于很大数量的曝光样本,点击样本的占比往往较小,其中转化数量更小,ESDF对全空间建模,让所有样本都参与训练,并且CVR与CTR共用向量表示,使得转化样本极少的物品向量也能够在曝光的记录中被训练到。
  • 样本选择偏差问题。一些CVR模型仅对曝光样本进行训练,而在全样本空间上进行预测,使用的数据分布不同影响模型效果。ESDF使用全空间样本,解决了这一问题。
  • 延迟反馈问题。训练时数据中可能存在很多会在未来转化的样本,但被标记为阴性,即假阴性标签。

2 符号介绍

X:用户及物品的特征

Y:01变量,是否发生点击

Z:01变量,是否已经发生转化

C:01变量,是否最终发生转化

D:点击和转化之间的时间延迟

E:点击发生距现在的时间间隔

物品经历的流程为:impression—>click->pay,Y表示impression后是否click,C表示click后是否会pay,而Z表示click后是否已经发生pay,若Z=1则必有C=1,但反之不一定。

3 模型介绍

模型框架图:

模型共由三个“塔”组成,第一个预估点击率,第二个预估点击转化率,第三个为延迟反馈模型。

3.1 转化模型

最终想要预测的是点击转化率:
p C V R = P ( C = 1 ∣ Y = 1 , X = x , E = e ) pCVR=P(C=1|Y=1,X=x,E=e) pCVR=P(C=1Y=1,X=x,E=e)
假设最终是否发生转化与E无关,将其拆解为:
P ( C = 1 ∣ Y = 1 , X ) = P ( C = 1 , Y = 1 ∣ X ) P ( Y = 1 ∣ X ) P(C=1|Y=1,X)=\frac{P(C=1,Y=1|X)}{P(Y=1|X)} P(C=1Y=1,X)=P(Y=1X)P(C=1,Y=1X)
将分子、分母分别记做pCTR(预估转化率)和pCTCVR(点击且转化率)。
满足: p C T C V R = p C T R ∗ p C V R pCTCVR=pCTR*pCVR pCTCVR=pCTRpCVR
框架图中的前两个“塔”分别用来预测pCTR和pCVR,其中pCVR是转化模型的终极目标,其他部分只是用来辅助这一模块进行全空间建模。

这两个模型共用参数,这一做法有以下几点优势:

  • 很多物品可能几乎没有被点击过,如果仅仅使用点击样本来训练CVR模型(即仅保留第二个塔),这些物品的向量很难被训练到,但通过两个塔共享参数可以使曝光未点击的样本向量在CTR模型中被更新。
  • CTR与CTCVR模型均为全空间建模,因此不存在数据选择偏差。
  • 如果两个模型不在一起训练,很有可能因为pCTR数值过小而导致分子与分子的比值大于1,因此联合训练能够缓解数值不稳定的问题。

3.2 延迟模型

为了使得模型具有更广泛的使用场景,不再假设延迟时间服从给定分布。

以天为单位,将延迟时间分箱为T+2个: [ 0 , T + 1 ] [0, T+1] [0T+1],若点击后延迟时间在0到T则将样本分入第0到T的对应分箱中;若延迟时间大于等于T+1天,则全部分进T+1分箱,这种做法是合理的,因为T足够大时,T+1之后的数量很少,可以看做噪声。

第三个“塔”用以预测延迟日期,实际上是预测样本延迟日期属于每个分箱中的概率,通过softmax函数输出概率值。

P ( D = t ∣ C = 1 , Y = 1 , E = e , x ) = F ( g ( x , e ) , t ) P(D=t|C=1,Y=1,E=e,x)=F(g(x,e),t) P(D=tC=1,Y=1,E=e,x)=F(g(x,e),t)
其中g(x,e)是经过softmax函数后输出的T+2维向量,表示预测属于每个分箱的概率,而 F ( α , t ) F(\alpha, t) F(α,t)只是表示取向量 α \alpha α的第t个分量,后续将简记f(x, t, e)。

3.3 联合模型

使用上述两个模型计算Z与Y的联合概率,从而得到样本分布的似然函数。

Y与Z的取值有三种情况,可将样本下标分为三个集合:
I 1 , 1 = { i ∣ z i = 1 & y i = 1 , i = 1 , 2 , . . . , N } I_{1,1}=\left\{i|z_i=1 \& y_i=1,i=1,2,...,N\right\} I1,1={ izi=1&yi=1,i=1,2,...,N}
I 0 , 1 = { i ∣ z i = 0 & y i = 1 , i = 1 , 2 , . . . , N } I_{0,1}=\left\{i|z_i=0 \& y_i=1,i=1,2,...,N\right\} I0,1={ izi=0&yi=1,i=1,2,...,N}
I 0 , 0 = { i ∣ z i = 0 & y i = 0 , i = 1 , 2 , . . . , N } I_{0,0}=\left\{i|z_i=0 \& y_i=0,i=1,2,...,N\right\} I0,0={ izi=0&yi=0,i=1,2,...,N}
使用到的参数分别来自三个“塔”: Θ = { θ c t r , θ c t c v r , θ d e l a y } \Theta =\left\{\theta_{ctr},\theta_{ctcvr},\theta_{delay}\right\} Θ={ θctr,θctcvr,θdelay}
似然函数:
P ( D ; Θ ) = ∏ i ∈ I 1 , 1 P ( z i = 1 , y i = 1 ∣ x i , e i ) × ∏ i ∈ I 0 , 1 P ( z i = 0 , y i = 1 ∣ x i , e i ) × ∏ i ∈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值