阿里18年的论文Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate.
code已经开源:代码
摘要:
这篇文章的目的是预测新顾客的转化率,相比于传统方法直接对pCVR建模,作者提出Entire Space Multi- task Model(ESSM)模型,不直接对pCVR建模,而是利用两个任务,预测pCTCVR和预测pCTR的结果来估计pCVR,从而避免了SSB问题。这篇文章创新的地方在于利用了一个链路的顺序关系,impression->click->conversion。
Problem
Input: click through rate(CTR) and conversion through rate(CVR)
Output: for a new user, the probability that he will purchase the item
Challenge
- Sample selection bias problem (SSB)
由于训练数据是用户点击的数据,只反映了clicked impression,而建模的空间是整个impression空间,其中clicked impression只占非常少的一部分,所以会导致训练数据采样空间与模型推测空间不一致,即bias问题。 - Data sparsity problem (DS)
CVR的数据远远少于前一步CTR的数据,导致CVR是一个非常稀疏的矩阵。
模型
p ( z = 1 , y = 1 ∣ x ) = p ( y = 1 ∣ x ) ⋅ p ( z = 1 ∣ y = 1 , x ) {p(z=1, y=1|x) = p(y=1|x) \cdot p(z=1|y=1,x)} p(z=1,y=1∣x)=p(y=1∣x)⋅