摘要
用户行为的顺序模式:impression → click → conversion
准确估计点击后post-click 的转换率(conversion rate:CVR)对于工业应用中的排名系统,如推荐和广告,至关重要。传统的CVR建模它在实践中遇到了几个问题。
1) 传统的CVR模型是通过click的样本来训练的,用点击样本空间对全量impression的样本来对整个空间进行推理,这就造成了一个样本选择偏差的问题。(样本空间应该是全量而不只是有点击的样本)sample selection bias (SSB) problem.
2)数据稀疏性data sparsity (DS) 。使得模型的拟合相当困难。(点击率一般是比较低的,曝光量是远远大于点击量的,以点击数据作为CVR的训练数据,会导致数据非常稀疏)
3)用户点击之后可能过几天才转化,对于CVR模型,负样本可能是假性负样本,这对模型的学习造成困扰。
空间多任务模型(ESMM)可以同时消除这两个问题。
i) 在整个空间中直接建立CVR模型。
ii)employing a feature representation transfer learning strategy.
iii) 暂不解决
样本空间:
INTRODUCTION
点击后post-click 的转换率( pCVR):
- pCVR = p(conversion| click, impression).
以往解决方法:
1)SSB:
- 无偏方法[3]通过拒绝采样(rejection sampling)从样本中拟合真实分布,解决了CTR问题中的SSB问题。然而,采用拒绝采样划分样本权重时,可能会遭遇到数值不稳定问题
2)DS:
- 在文献[1]中,针对不同的特征,采用层次聚类并结合逻辑回归模型来解决DS问题。然而,采用先验知识构建的层次结构难以应用于亿级用户量和物品量的推荐系统中。
- 过采样法对稀疏样本进行重复采样,减轻了数据稀疏性的影响。但是这种方法对采样率非常敏感。
- All Missing As Negative(AMAN)采用随机抽样策略来选择未点击的曝光样本作为负样本[2]。它可以在一定程度上减轻样本选择偏差问题,但是会导致预测值较低。
在本文中,提出了空间多任务模型(ESMM),它能够同时消除SSB和DS问题。在ESMM中,我们引入了两个辅助任务,即预测浏览后的点击率(CTR)和浏览后的点击率&转化率(CTCVR)。ESMM将pCVR作为一个中间变量,乘以pCTR等于pCTCVR,而不是直接用点击印象的样本训练CVR模型。pCTCVR和pCTR都是在整个空间内用所有印象的样本来估计的,因此得出的pCVR也是适用于整个空间的。这表明SSB问题被消除了。此外,CVR网络的特征表示参数是与CTR网络共享的。后者是用更丰富的样本来训练的。这种参数迁移学习[7]有助于极大地缓解DS的问题。
模型结构:
图左边部分是传统的CVR网络,作为对比实验的baseline
全样本多任务模型
传统的CVR建模方法直接预测点击后的转化概率
p
(
z
=
1
∣
y
=
1
,
x
)
p(z=1|y=1,x)
p(z=1∣y=1,x),它们一般采用点击的曝光数据集
S
c
=
(
x
j
,
y
j
)
∣
y
j
=
1
S_c=(x_j,y_j)|y_j=1
Sc=(xj,yj)∣yj=1,j=1…M,M是曝光数据集中被点击的数量。
S
c
S_c
Sc是S的子集,其中点击的数据集里,被转化的样本当做正例,未被转化的样本为负例。
ESMM挖掘了用户行为顺序模式的信息。源于多任务学习,ESMM采用了CTR和CTCVR两个辅助任务,并同时解决了上述CVR建模的问题。
总体来说,对于一个给定的曝光样本,ESMM同时输出pCTR、pCVR和pCTCVR。如图2所示,ESMM主要包括两个子网络,左边的CVR网络和右边的CTR网络。CVR和CTR模型都采用基础模型一样的结构。CTCVR采用CVR和CTR输出的乘积作为输出。ESMM中存在一些亮点工作,使得CVR模型区别于传统模型。
乘法全样本建模
其中
p
(
y
=
1
,
z
=
1
∣
x
)
p(y=1,z=1| x)
p(y=1,z=1∣x)和
p
(
y
=
1
∣
x
)
p(y=1| x)
p(y=1∣x)采用所有曝光样本集
S
S
S 建模得到。这直接解决了样本选择偏差问题。通过分别训练模型并预测pCTR和pCTCVR,然后根据公式2得到pCVR,我们称这种方法为除法。
但是,pCTR的数量级极小,直接由公式2计算会引起数值不稳定问题。ESMM采用乘法形式避免该问题。在ESMM中,pCVR只是一个由公式1计算的中间结果值。pCTR和pCTCVR是ESMM基于全样本空间预测的结果。这种乘法形式使得这三个相互联系且共同训练的估计量,充分挖掘用户行为数据的顺序性信息和训练信息。另外,乘法形式也保证了pCVR预测值的范围为[0,1],这在除法形式中可能超过1.
ESMM的损失函数由公式3定义。它包含两个损失函数项,分别由CTR和CTCVR任务采用所有曝光样本计算得到,不包含CVR任务的损失函数。
特征表示转移
Embedding层将高维稀疏向量转化为低维的表示向量。Embendding向量的训练占据了深度网络参数的绝大部分,需要高数量级的样本。ESMM采用一种特征表示学习方法,使CVR网络和CTR网络共享Embendding。CTR任务的样本数远大于CTR任务的样本数。这种参数共享机制使得ESMM中的CVR网络能从未点击的曝光样本中学习,有助于解决数据稀疏问题。
对比实验
(1)BASE 是章节2.2介绍的基础模型。
(2)AMAN[2] 采用负采样法,并公布了采样率为{10%,20%,50%,100%}时的最佳结果。
(3)OVERSAMPLING[4] 采用过采样法解决数据稀疏的问题,并公布了采样率为{2,3,5,10}时的结果。
(4)UNBIAS采用文献[3]中的方法,通过拒绝采样拟合样本中的真实分布。其pCTR为拒绝采样率。
(5)DIVISION分别单独训练 pCTR和pCTCVR网络,并采用公式2计算pCVR。
(6)ESMM-NS是未共享Embedding 的ESMM简单版本。
个人总结
除了广告预估领域外,对于顺序性行为序列,可以尝试;
全量样本空间 ctr任务远多于cvr,共享embedding会不会使学出来的embedding倾向于ctr,或者是因为这两个任务比较相关,还是理解为ctcvr做了一个损失约束
扩展【文献1】
过采样
【TODO】拒绝采样,re-weighting
[1] Lee K., Orten B., et al. 2012. Estimating conversion rate in display advertising:
from past erformance data. In Proceedings of the 18th ACM SIGKDD international
conference on Knowledge discovery and data mining. ACM.
[2] Rong Pan, Yunhong Zhou, Bin Cao, Nathan N Liu, Rajan Lukose, Martin Scholz,
and Qiang Yang. 2008. One-class collaborative filtering. In Data Mining, 2008.
ICDM’08. Eighth IEEE International Conference on. IEEE, 502–511.
[3] Zhang W., Zhou T., et al. 2016. Bid-aware gradient descent for unbiased learning
with censored data in display advertising. In Proceedings of the 22nd International
Conference on Knowledge Discovery and Data Mining. ACM.
[4] Gary M Weiss. 2004. Mining with rarity: a unifying framework. ACM Sigkdd
Explorations Newsletter 6, 1 (2004), 7–19.