ESMM模型与ESM2模型总结

最新推荐文章于 2024-09-24 15:20:56 发布

rotation ㅤ

最新推荐文章于 2024-09-24 15:20:56 发布

阅读量5.4k

点赞数 2

分类专栏：广告&推荐文章标签：推荐系统计算广告

本文链接：https://blog.csdn.net/fengxinlinux/article/details/119081463

版权

广告&推荐专栏收录该内容

3 篇文章 0 订阅

订阅专栏

ESSM模型

2018 阿里妈妈 SIGIR
原文链接：Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

该论文基于Multi-Task Learning 的思路，提出一种新的CVR预估模型，有效解决了真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题。

Sample Selection Bias (SSB)：转化是在点击之后才“有可能”发生的动作，传统CVR模型通常以点击数据为训练集，其中点击未转化为负例，点击并转化为正例，即训练时模型在点击空间中训练。但是训练好的模型实际使用时，则是对整个空间的样本进行预估，即曝光空间中进行预估。训练数据与实际要预测的数据来自不同分布，这一定程度上违背了机器学习中独立同分布的假设，这个偏差对模型的泛化能力构成了很大挑战。
Data Sparsity (DS) ：作为CVR训练数据的点击样本数量远小于CTR预估训练使用的曝光样本。

在这里插入图片描述

在广告中，从点击到转化，这两个行为即具有强相关的链式关系，也具有一定的独立性，故使用多任务学习的方式是一个很好的选择。例如，CTR与CVR并不一定满足线性的关系，即CTR如果很低，其CVR并不一定低，因为CVR的预估的是在一个广告点击后，用户发生转化行为的概率。

点击（CTR）、转化（CVR）、点击然后转化（CTCVR）是三个不同的任务的关系：
在这里插入图片描述

模型结构

在这里插入图片描述
由CTCVR的公式可以看出，CTCVR和CTR的训练数据均在曝光空间中，故ESMM模型利用CTCVR和CTR间接得到CVR，即解决了数据选择性偏差又解决了数据稀疏的问题。

其实，通过公式的变化，我们可以通过除法来求得CVR，如下所示：
在这里插入图片描述
即我们分别训练一个CTCVR模型和CTR模型，然后两者相除就能得到CVR的结果，但事实上我们并不能用这样的方式，因为CTCVR和CTR都是很小的值，通过除法，结果波动性会很大，并且有可能模型得到的CTR值比CTCVR小，导致求出的CVR值大于1，没有实际意义。

故作者利用连乘的思路，增加CTR和CTCVR辅助任务，来间接训练CVR模型。在模型结构图中，PCVR节点是粉色的，代表该节点仅是网络中的一个variable，没有显示的监督信号。ESMM利用ctr和CTCVR在整个样本空间上训练，来间接求得CVR。其次，与CTR共享特征表示参数，解决数据稀疏问题。

LOSS函数

在这里插入图片描述

使用CTR和CTCVR两部分的loss进行训练，其中pCTCVR由pCTR乘pCVR得到。

由损失函数可以看出，CVR的参数根据CTCVR任务的损失梯度更新，CTR的参数根据CTCVR和CTR两个任务的损失梯度更新。

ESM2模型

阿里 ESMM的升级版 2020年
原文链接：Entire Space Multi-Task Modeling via Post-Click Behavior Decomposition for Conversion Rate Prediction

ESMM模型提出为了解决样本选择偏差以及数据稀疏两个问题，由于从点击到购买的样本还是非常的少，故ESMM模型仍然面临一定的数据稀疏问题。
故 $ESM^2$ 基于ESMM进行改进，进一步解决数据稀疏问题。

在这里插入图片描述
挖掘用户行为，发现用户在购买前往往会有其他的行为，比如把想要购买的物品加入购物车或者心愿单。如下图所示：

加入心愿单／购物车的数据相较购买数据还是比较多的，因此可以基于这部分数据，通过多任务学习模型来求解CVR模型。如图所示，文中把加入购物车或者心愿单此类行为称作Deterministic Action (DAction) ，而其他对购买相关性不是很大的行为称作Other Action(OAction) 。此时原来的 Impression→Click→Buy过程变成了更加丰富的Impression→Click→DAction/OAction→Buy过程。