【论文笔记】CVR预估之ESMM模型

最新推荐文章于 2024-08-20 14:08:37 发布

csdn0006

最新推荐文章于 2024-08-20 14:08:37 发布

阅读量1.7k

点赞数 1

分类专栏： Ads 文章标签：算法神经网络转化率预估推荐系统计算广告

本文链接：https://blog.csdn.net/csdn0006/article/details/107968866

版权

本文介绍了CVR预估中的ESMM模型，该模型利用用户行为序列数据，解决样本选择偏差和数据稀疏问题。通过同时预测post-click转化率、点击率和点击转化率，ESMM在淘宝数据集上表现出色，相比其他方法有显著优势。

摘要由CSDN通过智能技术生成

概述

预测post-click转换率CVR在排序系统如推荐系统、广告中是至关重要的。传统的CVR模型使用深度学习方法已经实现到state-of-the-art水平。但是在实际应用中会遇到几个特定的问题让CVR模型建模变得困难。比如，传统的CVR模型是在点击曝光样本上训练的；但是最终是在整个样本空间上进行应用（曝光样本空间）。这就造成了样本选择偏差问题（Sample Selection Bias）。此外，数据稀疏问题让模型训练变得困难。在这篇论文中，提出利用用户行为序列数据，如曝光—>点击—>转化，对CVR模型建模的新方法。提出的ESMM模型可以同时消除上述两个问题：1）在整个样本空间对CVR模型进行建模；2)使用特征表示迁移学习策略对数据稀疏问题进行解决。在淘宝推荐系统收集的数据集上，ESMM模型比其他方法表现优异。最后公开了一个抽样版的数据集，包含点击、转换标签序列独立的用于CVR训练的训练样本。

介绍

转换率CVR预测对于工业应用的推荐系统，如在线广告、推荐系统是一个至关重要的任务。比如，上篇笔记中提到的OCPC中预测CVR来调整出价进而实现平台和广告主的双赢。也是推荐系统中平衡用户偏好和购买偏好的非常重要的因素。

论文专注于预测post-click转化率(post-click转换率就是用户点击后发生转化的概率，点击已经发生了)。以电商中的推荐系统为例。给定一个推荐物品，用户可能会点击感兴趣的部分，进而可能会产生购买行为。换句话说，用户的行为遵循一个序列模式：曝光->点击->转化。CVR建模更倾向于预测post-click转换率，即pCVR = p(conversion|click, impression)。【用户点击商品/广告后发生转换的概率，即post-click转化率】。

通常，传统的CVR建模方法使用和CTR预测任务的技术相似，比如使用深度学习。然而，存在几个任务相关的问题使得CVR建模变得具有挑战性。本文中提出在实际应用中遇到2个问题：1）样本选择偏差问题（Sample Selection Bias）。如图1所示，传统的CVR模型是在点击曝光数据上训练的（图中灰色部分），然而在模型应用时则是在整个样本空间上（白色部分，即所有的曝光样本）。SSB问题将会影响模型的泛化能力。2）数据稀疏问题（Data Sparsity）。在实际问题中，收集的用于CVR模型训练的数据集相较于CTR任务是非常少的。训练数据稀疏使得CVR模型的拟合变得十分困难。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xw9crUz3-1597244655260)(http://note.youdao.com/yws/public/resource/0598dd3dfb0f1261a999086ba0e72e2f/xmlnote/WEBRESOURCEf1baed4ab2ef47c4bc0bc6efd4cf0326/210)]

为了解决这些问题提出了一些方法。

在不同特征上构建分层估计器estimators，然后用逻辑回归将这些特征结合，用于解决数据稀疏问题。然后这种方法依赖于构建封层结构模型的先验知识，这种方法很难应用在有百万用户和items的推荐系统上。
对小类别样本进行过采样oversampling可以减缓数据稀疏；但是模型对于采样频率敏感；
All Missing As Negative(AMAN)使用随机采样策略在非点击曝光样本上进行样本选择作为负样本。这种方法通过引入非观察性的样本可以减缓样本选择偏差；但是会导致预测值始终偏低。
无偏方法通过拟合来自rejection sampling观察的观测值的真实基础分布，解决了CTR建模中的SSB问题。然而，当用rejection概率对样本进行加权时，可能会遇到数值不稳定性。

总之，SSB和DS在CVR建模场景中都没有很好地解决，上述方法都没有利用好序列动作中的信息。

论文中提出ESMM方法来利用用户行为数据模式，这种方法能同时消除SSB和DS问题。在ESMM中有两种辅助任务，分别预测post-view点击率（浏览后点击概率）和post-view 点击转化率（曝光后点击转化概率CTCVR）。CVR不再是直接在点击曝光样本上训练，ESMM将pCVR看做一个中间变量，和pCTR相乘得到pCTCVR。pCTCVR和pCTR都是在所有曝光样本即整个样本空间进行预测，因此引出的pCVR也是在整个空间上应用。这意味着已经解决SSB问题。此外，CVR网络的特征表示参数和CTR网络之间是共享的。后者的训练样本更加丰富；这种参数迁移学习能够显著的消除DS问题。

方法

D上采样样本构成的数据集。其中N表示曝光样本的数量。

x：表示观测的曝光样本的特征向量，通常是多个field的特征向量，比如用户域、item域；

y、z：二进制标签，y=1 or z=1分别表示点击、转化事件发生。

$\to z$ ：表示点击和转化之间的序列依赖性；当转换事件发生时之前总有一个点击事件（也就是说，转化通常是点击后发生的）。

post-click CVR（点击后转化概率）建模是估计概率 $p C V R = p (z = 1 ∣ y = 1, x)$ 。两个相关的概率分别是post-view 点击率（曝光后点击率） $p C T R = p (y = 1 ∣ x)$ 以及post-view 点击转化率(曝光后点击&转化概率；同时发生点击&转化) $p C T C V R = p (y = 1, z = 1 ∣ x)$ 。给定曝光样本x，