【论文阅读】去偏、缓解数据稀疏的多任务因果推荐CVR优化

论文名字:《LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MULTI-TASK LEARNING 》2020,阿里和一些大学联合发表,汉语翻译为:基于多任务学习的大规模因果方法去偏转化率估计

1.摘要

CVR的估算是电子商务推荐系统中的一项重要任务。该任务在工业环境下具有挑战性,主要有两个问题:

1)用户自选择导致的选择偏差,

2)由于很少的点击事件导致的数据稀疏性。

成功的转换通常有以下顺序事件:“曝光→点击→转换”。传统的CVR估计器是在点击空间中训练的,但推理是在整个曝光空间中进行的。他们未能解释缺失数据的原因,并将其视为随机缺失。因此,他们的估计很可能与实际值有很大的偏差。此外,数据稀疏性问题也阻碍了许多具有较大参数空间的工业CVR估计。

在本文中,提出了两种principled的、高效的和高效的CVR估计方法, Multi-IPW 和 Multi-DR。所提出的模型从因果角度做CVR的估计,并解释了缺失的原因,而不是随机的。此外,本文方法基于多任务学习框架,缓解了数据稀疏性问题。在工业级数据集上的大量实验表明,我们的方法优于最先进的CVR模型。

2.现存问题

选择偏差是推荐系统中一个被广泛认可的问题[1,2,3]。例如,音乐流服务通常会推荐用户反馈积极的音乐类型(例如,喜爱、分享和购买等),并有选择地忽略那些很少向用户展示的音乐类型。本文研究了点击后转化率(CVR)估计中存在的选择偏差。

 图1 cvr估计时的选择偏差

CVR预估是电子商务推荐系统中的一项关键任务[5,6]。一个典型的电子商务交易具有以下顺序事件:“曝光→点击→转换”[2]。cvr表示从点击到转换的概率,通常,在训练CVR模型时,我们只包括user点击的item,因为我们不知道user[7]没有点击的item的转换反馈。需要注意到:不点击一件item并不一定表明user对购买它不感兴趣。user可能会无意识地跳过他们可能感兴趣的某些商品。从图1中可以看出,曝光空间D是点击空间o的超集。在点击空间中训练传统CVR模型时,会产生选择偏差,并在整个曝光空间中进行预测(见图1)[2]。直观地说,点击空间中的数据来自于整个曝光空间,并且由用户自己的选择决定。因此,点击空间中的数据分布与曝光空间中的数据分布是不同的。这种内在的差异导致了传统CVR模型中缺少非随机数据(MNAR)和选择偏差[3,8,9,10]。

CVR估计在工业级推荐修复系统中相当具有挑战性的两个问题:

1,选择偏差:训练空间O和推理空间D中数据分布的系统性差异使传统CVR模型存在偏差[11,7,12,10]。这种偏差通常会导致性能下降。

2.数据稀疏性:这个问题发生是因为点击是相对稀少的事件(我们在生产数据集的点击率为5.2%,在公共数据集的点击率为4%)。传统的CVR模型通常只使用点击空间中的数据进行训练。因此,对于大的参数空间,训练样本的数量可能不够。在实验中,生产数据集有6亿个样本比53亿个参数,公共数据集有430万个样本比26亿个参数(见4.1节)[13,14]。

为了简化CVR估计的去偏任务,我们假设曝光空间是我们感兴趣的整个item空间(见图1)[2]。这种放松也是基于大多数物品至少暴露一次的假设。从表1可以看出,我们的数据集包含8150万个条目和115亿次曝光,即每个条目平均被曝光约150次。

为了解决CVR估计中选择偏差和数据稀疏的关键问题,采用了因果视角,并在多任务学习框架中发展了因果方法。本文提出了两种有原则的、高效的、高效的CVR估计方法,即多任务逆倾向加权估计法(Multi-IPW)和多任务双稳健估计法(Multi-DR)。我们的方法是为无偏CVR估计而设计的。它们也解释了数据稀疏性问题。

本文的主要贡献如下:

  • 据我们所知,这是第一篇将基于ipw和dr的方法与多任务学习相结合的论文。从因果关系的角度来看,我们的目标是共同解决CVR估计中公认的问题(即选择偏差和数据稀疏性)
  • 我们强调,最先进的CVR模型ESMM[2]是有偏的。与现有研究不同的是,我们的方法对mar数据进行了调整,并有原则地处理了选择偏差。同时,我们给出了数学证明,证明了所提方法在理论上是无偏的。实证研究表明,我们的方法优于ESMM和几个最先进的因果模型,并证明了我们的方法在实际工业环境中的有效性。

(为什么ESMM是有偏的?)

Ma et al.[2]提出了全空间多任务模型(whole Space Multi-task Model, ESMM)来弥补转化率(conversion rate, CVR)估计中的选择偏差和数据稀疏性问题。ESMM在整个曝光空间中进行训练,将CVR任务制定为两个辅助任务,即点击率(click-through rate, CTR)和点击率转化率(click-through & conversion rate, CTCVR)估计。然而,我们认为ESMM是有偏见的。我们讨论的细节在第3.2节中介绍。(看到关键处,来了个“下回分解”..)

(因果推理有哪些方法?)

因果推理提供了一种适应数据生成过程的方法。Schnabel等人提出了一种基于ipw的估计器,用于从有偏数据中训练和评估推荐系统。如果没有准确估计倾向,基于ipw的模型可能仍然有偏差。Wang等人[15]提出了一种双鲁棒(DR)联合学习方法来估计具有MNAR的项目评级。双鲁棒估计将基于ipw的方法与估算缺失数据预测误差的imputation模型相结合。在不准确学习倾向的情况下,只要DR估计器的imputation模型是准确的,DR估计器仍然可以具有无偏性。然而,现有的基于dr的CVR估计方法并没有设计用于CVR估计,无法解决CVR估计中普遍存在的严重的数据稀疏性问题。此外,这种联合学习方法在工业环境下并不有效(见图5)。

综上所述,我们的方法与上述方法有三个方面的不同:

  • 1)问题不同。我们开发了电子商务系统中CVR的估计方法,主要集中在评级预测[16]上。【cvr estimation和cvr rating 有什么区别?分别是什么】
  • 2)挑战是不同的。我们设计模型来解决选择偏差和数据稀疏问题,而它们只考虑了前者(ESMM同时考虑了两者)。
  • 3)方法不同。我们整合多任务框架与因果方法。具体来说,我们与深度神经网络同时共训练倾向模型、imputation模型和预测模型,而它们分别或交替训练这些模块,通常与线性回归或矩阵分解等模型一起训练[17,18,19,20]。我们将在第3节进一步论证我们的设计,并在第5节报告性能改进。

3.Causal CVR Estimators with multi-task learning 

到了我看不懂的地方.....先把能看懂的记录下来吧.....

3.3 A causal perspective to unbiased CVR estimation 

回想一下,选择性偏差估计来自这样一个事实:点击空间O模型训练,而暴露的预测是由空间D(见图1)。理想情况下,使用item已知的转化标签构建cvr estimators,可以去除选择偏差。

在因果推理语言中,它相当于在“do dataset”上训练CVR模型,在数据生成过程中对点击事件进行因果干预。具体来说,用户“被迫”点击曝光空间D中的每一件商品,并进一步做出购买决定。请注意,训练空间与“do dataset”中的推理空间相同。因此,选择偏差被消除了。直观上,图3中,我们也可以理解因果干预是如何消除偏差的。Z表示同时影响点击事件和转换事件的自选择因素。例如,Z可以是顾客在网上购物时考虑的购买兴趣或价格折扣。在因果推理中,我们将Z称为使CVR推理产生[24]偏差的“混淆者(s)”。一旦因果干预应用于点击事件(即,用户被迫点击所有暴露的项目),Z就无法控制用户的点击行为。这意味着我们成功地消除了使CVR估计产生偏差的混杂因素Z[25, 26, 24, 27, 28]。

显然,这个假想干预实验中产生的“do dataset”在现实中是无法获得的。现在的挑战是如何训练我们在观测数据集O上的CVR估计器,就像我们在“do dataset”上做的那样。在接下来的章节中,我们将讨论两种可以使用MNAR数据实现无偏CVR预测的估计器。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值