论文翻译-Reweighting Clicks with Dwell Time in Recommendation

该研究关注推荐系统中点击行为的利用,指出简单依赖点击可能引入点击诱饵和内容不匹配的问题。停留时间作为用户满意度的指标,尚未得到充分探索。作者提出有效阅读的概念,通过定义停留时间阈值和归一化停留时间函数,重新加权点击以提升推荐质量。实验结果显示,这种点击重加权方法在离线和在线评估中均提高了推荐系统的性能,尤其是在提供有效阅读和用户满意度方面。
摘要由CSDN通过智能技术生成

ABSTRACT

点击行为是推荐中使用最广泛的用户积极反馈。然而,在训练中简单地考虑每次点击可能会出现点击诱饵和标题内容不匹配,因此不能准确地捕捉用户对项目的真正满意度。停留时间可以被视为每次点击时用户偏好的高质量定量指标,而现有的推荐模型并没有充分探索停留时间的建模。在这项工作中,我们关注于在推荐中使用停留时间来重新加权点击量。准确地说,我们首先定义了一个名为有效读取的新行为,它有助于通过停留时间为不同的用户和项目选择高质量的点击实例。接下来,我们提出了一个归一化的停留时间函数来重新加权训练中的点击信号,这可以更好地指导我们的模型提供高质量和高效的阅读。在一个现实世界的系统中,点击重新加权模型在离线和在线评估方面都取得了显著的改进。

1 INTRODUCTION

现实世界的个性化推荐试图根据用户的偏好提供适当的项目。用户对项目的反馈是发现用户兴趣的自然和必要的信息。点击是一种高质量且广泛存在的隐式反馈,是推荐中使用的主要用户行为。点击率(CTR)预测也是[4,22]的中心目标。

尽管点击无处不在,但仅仅依赖点击作为唯一的监督训练信号可能不能准确和全面地捕捉用户的真正满意度,因为在实践[17]中,隐式点击反馈经常遇到点击诱饵或标题内容不匹配。此外,大多数现有的推荐模型直观地将所有的点击都平等视为训练标签[4,8,14],而没有在每次点击中挖掘出用户偏好的不同强度。为了解决这些问题,一个直观的想法是用更量化的权重来增强二进制点击。停留时间(DT)表示用户在被点击项目上的持续时间(点击后和退出之前),在现实系统中易于收集,非常适合量化点击和发现用户满意度[20]。更多的停留时间表明,用户更愿意在物品上支付时间成本,这反映了用户对点击的兴趣更高。停留时间是量化和重新加权点击的必要补充,以捕获用户在推荐中的真实偏好。

 

在实际推荐[2,18,19,23]中,有一些工作共同将点击和停留时间作为目标或特性。然而,他们中的大多数只是使用原始/日志停留时间作为除了点击之外的另一个训练标签,忽略了对停留时间和用户满意度之间的量化关系的进一步探索。在停留时间建模中需要回答两个问题:

(1)一个好的推荐系统应该是什么样子的呢?我们相信,一个好的推荐系统应该能帮助用户更有效地获得有用的信息(而不是追求更多的点击或停留时间)。其中心目标是为用户提供更有效的读数。停留时间被直观地用来定义有效阅读,而不同的用户和项目对停留时间有不同的敏感性。例如,一些用户往往会花更少的时间去阅读(即轻度用户)。一个物品的停留时间也与它的类型和总长度有关(例如,短新闻s。长的视频)。在培训中应公平地考虑不同用户和项目的有效阅读。

(2)如何准确地量化用户对停留时间的满意度?更长的停留时间确实意味着更高的满意度,而相同的停留时间改善并不总是表明相同的用户满意度改善。例如,将停留时间从1秒提高到15秒的积极影响远远大于从601秒提高到615秒。直观上,我们希望用户减少停留时间太短的无效点击,同时避免过分强调停留时间过长的点击,因为信息增益会降低,跷跷板效应可能会损害长尾灯用户和短项目的学习。如何设计一个停留时间函数来正确地重新加权点击仍有待探索。

在这项工作中,我们的目标是通过停留时间重新加权点击,以建立一个良好的推荐系统,其中用户应该有更高质量和高效的阅读。准确地说,我们提出了一个简单、有效的、与模型无关的点击重新加权框架来改进培训目标。首先,我们将一个名为“有效读取”的新行为定义为停留时间增强的高质量点击行为。有效读取选择三种类型的良好点击作为训练信号,考虑到不同的需求(a)从全部DT分布中学习到的常识性停留时间阈值,(b)轻用户,和(c)短项。其次,我们设计了一个新的归一化停留时间函数来量化每个有效读取的后验用户满意度。我们发现一个好的良好的标准化DT函数必须使用户获得更有效的读取,而不会对太长停留时间的行为造成太大的负面影响。最后,我们进行了一个多任务学习(MTL)框架,其中包含一个有效的读预测塔和一个重新加权的有效读预测塔。作为点击与停留时间重新加权的第一步,我们有意地选择了一个相当简单的行业风格的模型来实现方便的扩展。

在实验中,我们在微信头条新闻的真实推荐系统上评估了点击重加权框架。我们的模型在离线和在线评估方面都取得了显著的改进。本工作的贡献如下:

我们强调了有效读取的重要性,重新考虑了用户满意度对停留时间建模的量化,并提出了我们的点击重新加权框架。据我们所知,我们是第一个在现实推荐系统中采用基于停留时间的有效阅读行为的人。

我们定义了有效的读取来收集高质量的点击。我们还设计了一个简单而有效的标准化停留时间函数来模拟停留时间和用户满意度之间的内在关系。

我们在一个现实世界的推荐系统中,通过对离线和在线的评估来评估我们的点击重新加权框架,并在各种指标上实现了显著的改进。目前,拟议中的点击重新权重已经在微信上部署了4个多月,影响了数百万用户。

2 MODEL DESIGNS AND ANALYSES

2.1 Discussions on Dwell Time Modeling

研究人员一直致力于探索推荐的核心问题:用户真正需要什么样的推荐。最近的研究表明,与CTR [2,21,23]相比,停留时间在反映用户的真实满意度方面具有优势。然而,直接优化原始停留时间将不可避免地导致模型过度强调总持续时间较长的项目,使重用户和长项目在模型训练[16,19]中占主导地位。

我们认为,用户使用推荐系统的中心需求是获取信息。因此,我们回到停留时间、信息增益和用户偏好之间关系的本质,并得出以下假设:(A1)相同的停留时间所给出的积极信号对于不同的项目和用户是相对相等的,因为它们通常意味着对每个人都公平的同样宝贵的时间成本。(A2)用户需要最少的停留时间来开始从项目中获取信息。太短的停留时间意味着很少(或没有)好处。(A3)当当前停留时间足够长时,信息增益会随着停留时间的增加而逐渐减小。在此基础上,我们在点击重新加权中使用标准化的停留时间函数定义有效读取,作为一个更好的监督信号,以提供更丰富的建议。

2.2 Valid Read Selection

有效的读取是高质量的点击行为,可以更好地反映用户的真实偏好,这些偏好是在本工作中通过停留时间自然选择的。为了更深入地了解停留时间,我们绘制了不同日志停留时间的点击数字的趋势。从图2(左)中我们可以发现:(1)一般情况来说,我们可以大致假设日志停留时间具有近似的高斯分布,即ln𝑇=𝜇+𝜎𝜖,其中𝑇是随机停留时间,𝜖∼𝑁(0,1)。(2)我们认为[𝜇−𝜎,𝜇+𝜎]是主流的停留时间范围。近19%的点击行为停留时间短于15秒,近15%的点击行为停留时间超过200秒。根据上述假设A2和A3,在点击重加权时,停留时间过短或过长的点击行为应该被降级。

 很直接地粗略地设置一个共享停留时间阈值来收集有效的读取。然而,仅仅依靠阈值来定义有效读取将不可避免地忽略轻用户和短项目的重要行为信息。因此,我们将三种类型的用户项点击定义为我们的有效读取行为:

T1:停留时间大于𝑥𝑙秒。

T2:用户在最近一周点击了少于7项。

T3:停留时间超过该项目历史停留时间记录的10%(即超过P10分位数)。

(1)第一种类型根据常识性阈值𝑥𝑙建立有效读取的基本规则。我们假设ln𝑇的𝑥𝑙=exp(𝜇−𝜎)作为有效读取的共享停留时间阈值,能够适应不同的推荐系统。在我们的系统中,exp(𝜇−𝜎)是接近15秒。19%的点击行为被T1过滤。为简单起见,我们直接针对时间成本的所有用户和项目的绝对值采用共享的DT阈值,同时,为不同的用户或项目组设置自定义的停留时间阈值也很方便。(2)第二种是给轻用户贴一个补丁,认为所有轻用户的点击行为作为训练中的监督信号,因为他们的行为是罕见的。我们希望避免那些喜欢扫描而不是深度阅读的长尾灯用户的关键信息丢失。(3)第三种类型考虑在特定项目上的相对停留时间,检索在同一项目上的所有历史单击中具有相对限定的停留时间(前90%)的单击。通过这个方法,我们的有效阅读显示了对自然较短的长度和停留时间较短的项目(例如,新闻或短视频)。为了避免噪音,我们进一步消除了所有停留时间少于5秒的点击,以确保有效读取的最小可用性。在我们的实际系统中,T1、T2、T3类型分别占总体有效读取数的89.9%、2.9%、7.2%。在训练中,只有有效的读取被用作监督信号。

2.3 Normalized Dwell Time Function

有效的读取选择作为预过滤器。然而,我们仍然面临着在点击重新加权中精确定义不同停留时间值的优点的挑战。很明显,当停留时间相同时,停留时间较短的对点击质量有更大的贡献,(例如,[1s→15s]大于[601s→615s])。因此,许多工作采用具有日志停留时间的MSE作为停留时间预测[2,16,23]的训练目标。

与传统模型不同的是,我们将有效读取定义为高质量的监督标签,并希望提高在线系统中有效读取的数量和比例。因此,我们的停留时间函数应该具有以下两个特征c1和c2。2.1:

C1:设计的停留时间函数曲线应该比较陡峭,早期的梯度较大(特别是在有效读取阈值exp(𝜇−𝜎)附近),指导模型有效区分有效读取和无效点击。

C2:当停留时间过长时,停留时间函数曲线应平坦,避免过多的长时间项目的奖励,伤害轻用户和短项目。

根据这些规则,我们设计了基于原始停留时间𝑇的归一化停留时间𝑇𝑁,其sg型函数为:

 图2(右)为𝑇𝑁的变化趋势。与对数停留时间相比,𝑇𝑁随着设计速率的单调增加,其中𝑜𝑓𝑓𝑠𝑒𝑡和𝜏是满足C1和C2的基本参数。𝑜𝑓𝑓𝑠𝑒𝑡决定了梯度最大的停留时间点。对于C1,我们设置𝑜𝑓𝑓𝑠𝑒𝑡=exp(𝜇−𝜎),使归一化停留时间在有效/无效读取边界上的梯度最大,与基于有效读取的监督训练很好地配合。𝜏定义了停留时间曲线的锐度。对于C2,我们将一个上阈值𝑥ℎ定义为exp(𝜇+𝜎),假设大于𝑥ℎ的停留时间𝑇对𝑇𝑁没有贡献(即,𝑥ℎ→𝑇的𝑇𝑁改进小于最小精度,例如,在我们的系统中的1𝑒−5)。𝜏被设置为符合上述𝑥ℎ的假设。𝐴和𝐵是将𝑇𝑁缩放到[0,𝑇𝑚𝑎𝑥]的超参数,其中𝑇𝑚𝑎𝑥是我们当前在线停留时间模型的最大停留时间值。我们保持规范化停留时间范围不变,以减少与在线其他模块合作时可能出现的不匹配问题。最后,在上述讨论的基础上,我们设置了𝑜𝑓𝑓𝑠𝑒𝑡= 15、𝜏= 20、𝐴= 2.319、𝐵= 0.744来满足C1和C2。我们还对这些参数进行了网格搜索,发现当前的设置确实实现了最好的在线性能。学习到的归一化停留时间用于下面的单击重新加权。

2.4 Click Reweighting

有效的读取和归一化停留时间设置被设计为过滤噪声和量化点击质量,以更好地进行用户偏好学习。在点击重加权过程中,我们采用多任务学习(MTL)框架进行有效读预测和加权有效读预测任务。具体来说,我们执行一个共享底部来在两个任务中共享原始用户/项特性。

对于有效的读塔,在不失去一般性的情况下,我们采用三层MLP,以原始用户/项目特征𝑓𝑢,𝑓𝑑𝑖作为输入,并在项目𝑑𝑖上输出用户𝑢的预测点击概率𝑃𝑢,𝑑𝑖。接下来,有效的读取损失𝐿𝑣被定义为:

 𝑆𝑝和𝑆𝑛分别表示正(即有效读取)集和负(即无效单击和取消单击)集。类似地,对于加权有效读塔,我们直接使用归一化停留时间𝑇𝑁𝑢,𝑑𝑖作为每个时间的权重(𝑢,𝑑𝑖)。采用另一个3层MLP输出预测的点击概率𝑃‘𝑢,𝑑𝑖。然后在损失𝐿𝑤下训练加权有效读塔如下:

 𝐿𝑣和𝐿𝑤线性合并为最终损失𝐿=𝐿𝑣+𝐿𝑤。在在线部署中,双塔的预测分数的总和被用于我们的系统中的在线排名。通过MTL联合考虑原始和DT加权有效读取预测任务,有利于整体在线性能。此外,我们还探索了增强的神经网络和MTL方法,如MMoE [10]和PLE [15],而在线改进并不显著。这可能是因为停留时间与点击量高度相关。为了简单起见,我们在模型中直接使用具有共享底部的MLP。

3 EXPERIMENTS

3.1 Dataset and Settings

我们对微信头条新闻的一个文章推荐系统进行离线和在线评估。脱机数据集包含近29.7M的用户、5.3M的项目和751M的实例(包括104M的单击和89.6M的有效读取)。所有实例都按时间顺序分为训练集和测试集(571M/180M实例)。

3.2 Offline Evaluation and Ablation Study

我们建立了四种具有不同目标的模型来进行离线评价和消融研究:(a)单个CTR,仅使用CTR作为培训目标。(b) CTR+logDT,这是一个以经典CTR+DT和日志停留时间为目标的CTR+DT优化[2,16]的MTL模型。(c) VR+logDT,一个具有有效读取(VR)和logDT目标的MTL模型。(d)VR+NDT(即最终的点击重新加权模型),它进一步用我们的标准化停留时间(NDT)取代了logDT。我们用AUC和RelaImpr作为[4,13]之后的指标,在有效的读取预测任务上评估它们。所有基线共享相同的神经网络,具有相同的原始特性和设置,以进行公平比较。

 表1显示了这些结果,从中我们可以发现:(1)最终的Click重加权模型具有有效读取预测的最佳性能。改进具有显著性(𝑝< 0.01与配对t检验),所有模型的偏差均小于±0.0003。这表明,我们的点击重新加权可以推荐更多的高质量的项目,用户喜欢点击和阅读。(2)通过比较有/没有VR和NDT的模型,我们发现有效的读取过滤和标准化的DT重加权对于提高用户的有效读取都是必不可少的。(3)单CTR仅关注CTR,因此比具有停留时间建模的MTL模型表现更差。(4)我们还在原始的CTR预测上评估了这些模型,其中单个CTR实现了最佳的离线AUC,因为它是自然为这个任务设计的。然而,Click重加权模型令人惊讶地在在线A/B测试中达到了最好的CTR(我们更关心的CTR)。点击重新加权优先推荐高质量的项目,用户可能会有信息阅读,而不是用户可能在ctr导向的培训指导下点击的项目,通过更好的用户体验带来长期利益。

3.3 Online Evaluation

为了验证点击重加权的在线能力,我们进一步在微信的头条新闻上进行了在线A/B测试。我们专注于四个在线指标:(a) CTR、(b)人均平均点击数(ACN)、(c)停留时间(DT)和(d)人均平均印象数(AIN)。我们对近500万用户进行了为期7天的A/B测试。

 从表2中我们可以发现:(1)CTR和ACN在使用有效读取方面都有显著的改进(𝑝< 0.05)。令人印象深刻的是,使用高质量的有效阅读作为培训目标,甚至可以改善与在线点击相关的指标。通过增加标准化的停留时间,进一步加强了这些改进,这再次证实了NDT对用户体验的有效性。(2)原始的停留时间建模过分强调了长时间停留时间的行为。我们的Click重新加权旨在提高所有用户的有效读取,从而不可避免地牺牲停留时间的性能。(3)在ACN和AIN上的改进进一步表明,用户更愿意使用我们的系统,这是增长的核心驱动力。

3.4 Online Dwell Time Migration

在图3中,我们发现了不同主动性的用户的停留时间迁移趋势。x轴表示停留时间的分位数(P10是最短的10%停留时间),y轴表示活跃度级别(级别7是最活跃的用户),z轴表示从基线到Click重新加权的停留时间变化。我们发现: (1)轻用户和重度用户在他们短暂的停留时间行为上都有更多的停留时间(特别是对于活动较少的用户)。这意味着用户倾向于有更有效的读取。(2)过长的读数的停留时间不可避免地会减少,因为过长的项目不会因为标准化的停留时间而被过度强调。相比之下,我们的模型更关注轻使用者在短项目上的行为。(3)DT迁移符合我们的目的,即提供更多信息和有效的建议。我们希望用户能获得更好的阅读体验,而不是被困在我们的系统中。

 4 RELATED WORKS

有一些努力试图发现点击诱饵和净化点击[1,3,6,11,12]。在现实场景中,点击项目的停留时间是自然的和强大的用户反馈,可以量化点击[5,7,9,20]。内容特征通常被仔细编码,用于停留时间预测[16,18]。近年来,一些工作采用了MTL或多优化目标来共同考虑CTR和驻留时间预测[2,19,23]。然而,它们并没有充分解决项目过长的过度强调的问题。Zheng等人[21]设计了一个手表时间增益来测量一个项目上的相对停留时间,而它丢失了不同项目中特定停留时间值的基本信息。在这项工作中,我们提出了一种新的行为有效的阅读与一个规范化的DT,以更好地适应我们的目的,使更有效和信息丰富的阅读。

5 CONCLUSION AND FUTURE WORK

在这项工作中,我们提出了一种简单而有效的方法,通过有效的基于归一化停留时间的重新加权,旨在发现停留时间、信息增益和用户满意度之间的关系。点击重加权框架已部署在微信的真实推荐系统上。在未来,我们将探索更复杂的有效阅读建模,并从理论和实验上调查我们通过长期在线指标重新加权的目的的利弊。

REFERENCES

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值