主要是论文的翻译,会加上一些自己的理解。
论文题目
- Decision-Making Context Interaction Network for Click-Through Rate Prediction
- 用于预测点击率的决策上下文交互网络
摘要
【原文翻译】
点击率预测在推荐和在线广告系统中至关重要。现有的方法通常对用户行为进行建模,却忽略了影响用户做出点击决定的信息环境。例如,影响用户兴趣推断的点击页面和预排名候选者,从未导致推荐的性能不达标。在本文中,我们提出了决策上下文交互网络(Decision-making Context interaction Network,DCIN),它部署了一个上下文交互单元(CIU)来学习决策上下文,从而有利于点击率预测。此外,还设计了自适应兴趣聚合单元(AIAU)能够探索不同决策上下文来源组件的关系,从而进一步改进点击率预测。在公共和工业数据集的实验中,DICN明显优于最先进的方法。值得注意的是,该模型在在线 A/B 测试中获得了 CTR+2.9%/CPM+2.1%/GMV+1.5% 的改进,并服务于美团外卖广告系统的主要流量。
【理解】
- 聚焦于两种对用户点击率预测有所影响的上下文环境——点击页面和预排序的候选者;
- 设计了DICN,其中有两种组件:CIU(作用应该是上下文环境中挖掘出用户兴趣)和AIAU(聚合从两种环境中挖掘出的兴趣);
- 实验证明其有效性。
引言
【原文翻译】
点击率(CTR)预测模型的性能直接影响最终收益和用户满意度,因此对推荐和广告系统至关重要。近年来,深度网络因其强大的建模能力被引入点击率预测领域。向具有精心设计结构的深度网络输入信息数据,深度网络就能学习到最具代表性的预测特征,并且通常具有良好的泛化能力。
早期的点击率预测模型设计了特定的组件来学习不同特征字段之间复杂的低阶/高阶交互,并取得了显著的改进,但它们忽略了用户交互项目之间的关系。最近,一些开创性的方法通过对用户历史行为建模来缓解这一问题:将用户反馈积极的项目(如点击)所包含的内在属性建模为用户兴趣,以丰富点击率预测模型所感知的信息。尽管这一范式已经有了重大改进,但仍面临一些关键问题。一方面,它只考虑了每个行为是否与用户兴趣相匹配的点状信息,而历史行为往往是有噪声的(Liu 等人,2020 年),因此提取的用户兴趣并不精确。另一方面,这种范式只容易对用户历史行为中的表面信息进行建模,而忽略了系统中潜在但有价值的上下文(如项目的共现关系),从而导致系统性能不理想。我们强调,有必要探索这些语境,以学习更稳定的表征。
【理解】
点击率预测模型的变更,早期只学习特征字段之间的交互信息,忽略用户交互项目之间的关系;
提出对用户行为进行建模来缓解这一问题,并提出这一范式面临的关键问题:历史行为的噪声和忽略潜在但有价值的上下文。
【原文翻译】
首先,应利用页面级的共现关系。在一个典型的展示广告系统中,如图 1(a)所示的美团外卖,用户通过刷广告列表来寻找自己喜欢的商品。假设用户喜欢吃快餐,而这个有三个汉堡同时出现的个性化页面在之前就已经出现在他面前,他点击了蓝色框中的汉堡,那么基于行为建模的方法就只用蓝色框中的汉堡来代表用户的兴趣,而不考虑页面内项目的相互影响。事实上,在决定点击哪个项目之前,用户不仅会关注蓝色的汉堡,还会关注本地范围内其他红色的汉堡。用户会明确比较它们的价格、评价和销量等属性,然后做出点击决定,因此我们将页面内项目的关系命名为显式决策上下文。用户对某些项目的比较表明了他们对这些项目的兴趣,因此在推断用户兴趣时,这种显式上下文和用户行为是相辅相成的。
【理解】
这段提出一个名为显式决策上下文的概念。
简单地说历史点击项目对应的页面内项目之间的关系。通常情况下,在用户点击了蓝色框内的汉堡后,用户行为建模的方法就只会将该项目与用户的行为兴趣相关联,而忽略了页面内项目之间的影响。
事实上,用户在做出蓝色的点击决定之前,会主动比较本地范围内红色字体的高度相关项目的属性。用户对这些项目的比较表明了他们对这些项目的兴趣,因此,在推断用户兴趣的过程中加入这种显式上下文是必要的。
【原文翻译】
其次,应充分利用系统中的个性化。匹配和预排序是排序前的两个阶段,这两个阶段都考虑了个性化因素,以筛选出可能符合用户兴趣的项目。预排序阶段会生成一组候选项,即在排序阶段预测点击率的目标项。由于个性化的原因,该集合中有许多高度相关的项目。如图 1(b)所示,图 1(a)中为用户生成的候选项中包括一些快餐。当点击率预测目标是彩色汉堡时,我们更有信心用户会点击它,因为其他两个汉堡的出现表明用户可能喜欢快餐。对于彩色奶茶,由于存在另一种奶茶,它的点击率也可能高于候选中没有类似项目的奶茶。虽然用户还没有做出点击决定,但个性化结果隐含地告诉了我们用户可能的兴趣所在,并有助于预测。因此,我们将个性化引入的信息命名为隐式决策上下文。
【理解】
这段提出了隐式决策上下文。
在排序的前两个阶段——匹配和预排序中,系统会自动考虑用户个性化的历史行为兴趣,从而生成候选项。
如图1(b)中,有三种汉堡(彩色个人认为只是作为区分),两种奶茶,说明用户对这两种物品比较感兴趣。因此奶茶和汉堡的点击率会较高。
这样个性化的项目候选集,也体现了用户的潜在的兴趣。
【原文翻译】
受这些观察结果的启发,在这项工作中,我们提出了一种决策上下文交互网络(Decision-Making Context Interaction Network,DCIN),它可以同时学习显性和隐性决策上下文,从而充分利用系统中的信息,让深度学习释放其能力:
- 显式决策上下文建模。
考虑到用户的兴趣不仅潜藏在他们的点击行为中,也潜藏在显式决策情境中,因此我们用显式情境来增强用户的行为兴趣。具体来说,对于用户点击序列中的每一个项目,我们都会首先分割出与其相关的曝光页面。然后利用页面中的上下文来增强点击兴趣。然而,并非每个页面都完全包含这种上下文,尤其是那些包含无关项目的页面。为了解决这个问题,我们提出了上下文交互单元(CIU),将页面内的项目明确分为两类:与点击项目相关/不相关的项目。这样,行为兴趣就只能与相关项目的明确上下文进行交互,而无关项目的影响则会被抑制。
- 隐式决策情境建模。
用户兴趣会驱动个性化系统生成一些同质候选者。相反,这些相关候选对象中的隐含决策上下文可以用来推断用户兴趣。因此,我们通过学习隐式情境来完善目标表征,以突出其可能激活用户兴趣的属性。同时,应抑制无关候选者的影响。得益于所提出的 CIU 的通用性,我们可以重复使用它来将目标与隐式上下文进行交互,从而生成更全面的目标表示。
遗憾的是,由于显性和隐性语境是孤立建模的,我们的表述存在两个局限性。
首先,所有细化目标都具有相同的增强行为兴趣。其次,对于一个特定目标,每个行为兴趣的贡献都是相同的。这两个限制导致点击率预测性能较差,因为当用户做出点击决定时,只有部分兴趣会被激活。为了解决这个问题,我们提出了自适应兴趣聚合单元(AIAU),在该单元中,增强行为兴趣会根据其与细化目标的相关性进行自适应聚合。
总之,我们的贡献有三方面:
- 提出了决策上下文交互网络(DCIN),它可以同时学习显性和隐性决策上下文,从而释放深度学习的能力。据我们所知,我们是第一个在排序阶段对两种情境进行建模的公司。
- 提出了一个上下文交互单元(CIU)来有效地模拟显性和隐性上下文,并引入了一个自适应兴趣聚合单元(AIAU)来学习特定目标用户的行为兴趣。
- 在美团外卖数据集上进行的大量实验验证了我们设计的有效性。我们的模型已成功部署在美团外卖的在线展示广告系统中,为业务的改进带来了益处。
【理解】
这一部分总结了文章的主要内容。
文章提出一种决策上下文交互网络(DCIN),利用前文提出的显式背景和隐式背景使用一种上下文交互单元(CIU)挖掘出用户的潜在行为兴趣。由于两种背景的建模是相互独立的,文章提出 了一种自适应的兴趣聚合单元将从两种背景中挖掘出的用户兴趣进行聚合。
相关工作
【原文翻译】
点击率(CTR)预测旨在预测用户点击候选项目的概率。早期的点击率预测方法大多侧重于捕捉不同特征字段的低阶/高阶交互。Wide & Deep(Cheng 等人,2016 年)和 DeepFM(Guo 等人,2017 年)都部署了一个宽组件来模拟低阶交互。DCN(Wang 等人,2017 年)和 xDeepFM(Lian 等人,2018 年)通过显式交叉网络来模拟高阶交互。AutoInt (Song 等人,2019 年)采用自我注意(Vaswani 等人,2017 年)自动学习高阶交互。这些开创性的工作展示了深度学习的能力,但由于忽略了用户交互项之间的关系,它们的性能趋于饱和。
基于用户行为建模的方法将用户互动项目的高度个性化信息纳入点击率预测模型。DIN (Zhou 等人,2018 年)引入了局部激活单元,以提取被目标激活的用户兴趣。DIEN(Zhou 等人,2019 年)采用 GRU(Chung 等人,2014 年)来学习用户兴趣演化。DSIN(Feng 等人,2019 年)利用双向 LSTM(Hochreiter 和 Schmidhuber,1997 年)为会话内/会话间用户兴趣建模。SIM(Pi 等人,2020 年)引入了级联搜索范式,为终身连续行为数据建模。CAN(Zhou 等人,2020 年)提出了一种协同行动网络(Co-Action Network),以适应复杂的特征交互。
DFN 和 DSTN 指出,用户的负面反馈(如取消点击)也会为用户兴趣的推断提供信息。然而,DSTN 的部署使其更像一个重新排序模型。最近的一些研究不仅考虑了向模型提供哪些信息,还考虑了信息的结构,从而推动了点击率预测的发展。RACP 和 DPIN 对用户互动项目周围的整个曝光页面进行建模,以了解稳定的用户兴趣。但是,RACP 对每个页面进行建模,而不考虑该页面是否包含用户反馈或有价值的上下文,DPIN 则是一个重新排序模型。CIM 利用上游相关性过滤器生成的候选项来代表用户意识,而忽略了明确的行为上下文。此外,CIM 的印象概率是对总共 300 个候选者的平均值,这可能会导致特征平滑和结果不理想。
在这项工作中,我们不仅关注向深度模型输入足够的信息,还提出了可以过滤掉目标相关信息的模块,以简化学习,从而提高点击率预测性能。
方法论
我们的目标是预测用户点击候选项目的概率。DCIN 的整体架构如图 2(a)所示。它主要包括五个部分:特征表示、显式决策上下文建模、隐式决策上下文建模、自适应兴趣聚合以及用于点击率预测的最终 MLP。
特征表示
点击率预测模型的输入特征大多为高维稀疏形式。为了减少资源开销和便于学习,通常会通过嵌入层将其转换为低维密集表示。
我们的模型将用户配置文件特征、项目配置文件特征和上下文特征作为输入,并将它们分别转换为 。 表示嵌入维度。
此外,用户的点击序列和相应的页面,以及预排序生成的候选项都是模型的输入:
- 用户点击序列和页面用于模拟显式的决策环境。
点击序列包含用户点击的 S 个项目。
对于第 i 个被点击的项目,我们将其与 P 个项目分割成一个点击页面。每个被点击的项目或页面项目都包含 ID、价格、在页面中的位置等特征,并被转换成一个 维特征向量。
点击序列: ,第 i 个点击页面用 表示。
- 引入预排序阶段产生的候选项来模拟隐式决策环境。
每个候选 C 都包含 ID、价格等特征。候选者的表示为 。
请注意目标项 是候选项之一。
显式决策上下文建模
用户在做出点击决定之前对页面内项目的明确比较为推断用户兴趣提供了重要线索。然而,如何利用这一背景仍然具有挑战性,因为用户不会在每个页面上都进行比较。例如,在有无关项目的页面上,用户基本上是根据点状兴趣进行点击,而不会进行比较。为了应对这一挑战,我们提出了一种上下文交互单元(CIU),通过与互补的显式上下文进行自适应交互来增强用户行为兴趣。
如图 2(b)所示,CIU 包含两个组件:
1) 非相关性抑制单元(ISU),用于抑制与点击项目不相关的页面内项目的影响;
2) 相关性交互单元(RIU),通过与相关页面内项目的明确上下文交互来增强用户行为兴趣。
【理解】CIU主要是将选出与点击项目相关的项目,去掉与点击项目不相关的项目。下文会详细讲解这一过程。
非相关性抑制单元(Irrelevance Suppression Unit)
由于广告系统通常会向用户展示各种各样的项目,其中一些项目并不在用户的比较范围之内,因此无助于明确的上下文建模。本单元旨在将页面内的条目分为两类,即与点击条目相关/不相关的条目,从而保留相关条目中信息量最大的上下文,同时抑制这些不相关条目的影响。
给定第 i 个点击项目和相应的点击页面
点击项目和相应点击页面项目的相关性表示为,
以及,
其中,[-]表示连接, 表示元素顺积,使用的MLP 包含两个隐藏层。然后,前 k1 个相关项被保留下来,而其他项则被视为不相关并直接被抑制,从而促进了下面的上下文交互过程:
由上可得,ISU单元得出的是点击项目和相应点击页面中项目的相关性。
相关性交互单元(Relevance Interaction Unit)
该单元旨在通过与相关页内项目的显式上下文互动来增强用户行为兴趣。由于 ISU 已经抑制了页面内的相关条目,因此我们部署了交叉关注来利用显式上下文。
具体来说,我们首先对点击项目和筛选出的页面内项目进行线性变换,即
,,。
其中,Q;K; V 分别代表查询、键和值, 是转换矩阵。
然后进行交叉关注,生成增强的行为兴趣: 。
其中,WO ∈ RDsDs 用于细化输出。请注意,应用的是残差学习(He 等人,2016 年)。总之,CIU 的重点是利用可能引起用户比较的页面内项目来增强用户行为兴趣。
隐式决策上下文建模
一方面,预排序中的个性化使一些同类项被列入候选项。在用户做出点击决定之前,这些相关项目的共现隐含地告诉我们用户的兴趣可能是什么。另一方面,用户的兴趣是多样的,因此候选条目也是多样的。对于当前的目标项目来说,要在如此嘈杂的环境中利用这种隐含的上下文是非常困难的。基于这些考虑,我们希望有一个模块能过滤掉与目标不相关相关候选项的隐式上下文。幸运的是,拟议的 CIU 满足了这些要求,因此我们将其的候选项,并利用重新用于完善目标的表示,以强调其可能会激活用户兴趣的属性。
预排序选出的候选项部分会表现出相关性,另一部分由于用户兴趣的多样性,候选项也是多样的。同样是使用CIU来挖掘用户兴趣。
给定候选集 以及目标项,
ISU会输出候选项和目标项的相关性:
根据相关性选出top-k2个相关的项目:
RIU 通过交叉关注来汇总目标候选项的共性,并生成更能激活用户兴趣的精炼目标:
, ,
自适应兴趣聚合单元(Adaptive Interest Aggregation Unit)
CIU利用显性和隐性上下文来生成增强的行为兴趣和需要改进的目标(候选项)。然而,这两种表征之间的关系尚未建模,因此存在两个致命的局限性。
1.所有目标都具有相同的行为兴趣;2,在预测特定目标时所有行为兴趣的贡献都是相同的,但事实上,目标只能激活用户的部分兴趣
例子:以图1 的b为例子,如果我们得知用户之前点击过快餐,这意味着ta可能会点击当前显示的汉堡,而如果得知用户之前点击过鲜花,这一信息却在预测时提供任何的有用的信息,因此,需要一个根据目标来聚合用户兴趣的模块。
由于行为兴趣和目标候选项是由不同的输入分别建模,简单使用CIU进行聚合无法良好的体现用户兴趣。因此提出了自适应兴趣聚合单元(AIAU)——图2的(c)
给定增强的行为兴趣(由显式兴趣建模得来)以及目标项,使用一个两层的MLP进行自适应对齐和激活第 i 行为兴趣:
对齐后的兴趣通过自注意力层来捕捉他们之间的相互影响:
,
,,
使用平均池化层和两层的MLP进行最终的兴趣聚合:
目标优化
聚合的用户兴趣与用户特征嵌入、项目特征嵌入和上下文特征嵌入连接在一起,将产生的向量输入到最终的MLP中预测点击率:
模型的损失:
为真实的点击标签 , 为预测的CTR
实验
数据集
由于很少有大规模数据集同时包含行为页面信息和预排名候选者,因此我们基于公开的 Avito1 数据集构建了一个数据集。同时,我们还从中国最大的餐饮外卖平台美团外卖的在线服务日志中收集了一个行业数据集--美团外卖展示广告(简称 "美团广告")。表 1 汇总了两个数据集的统计数据,并对两个数据集作了如下详细说明:
- Avito Avito 数据集
来自 avito.ru 的随机广告日志样本。它包含用户搜索信息,如用户 ID、搜索 ID 和搜索日期。每个搜索 ID 对应一个包含多个广告的搜索页面。对于每个用户,我们根据搜索日期将其搜索页面按递增顺序排列,并将前 T-1 个搜索页面作为行为页面,将第 T 个搜索页面中的广告作为要预测的目标广告。我们通过共现规则来构建候选集:对于每个目标广告,我们先统计与之在同一搜索页面共现的其他广告,形成共现列表,然后从列表中随机抽样广告,形成候选集。为了避免训练过程中的数据泄露,我们首先根据用户划分训练集,只使用其中一部分用户构建候选集,其他用户则进行训练。我们将 20150428 至 20150518 作为训练集,20150519 作为验证集,20150520 作为测试集。
- 美团广告
由于公开数据集没有同时包含行为页面和预排名候选者,因此我们从美团外卖 App 的在线服务日志中收集了 20220525 年至 20220610 年用户曝光的真实行为页面和相应的候选者作为训练集,并收集了 20220611 年的数据作为验证集,20220612 年的数据作为测试集。
对比模型
我们将DCIN和下列典型的方法作比较,为确保公平性,所有的方法都使用相同的输入特征:
- DNN
遵循 "嵌入&MLP "范式,即把高维稀疏特征转换为低维稠密表征,然后将这些表征串联起来并输入 MLP 以预测 CTR。请注意,DNN 也是大多数 CTR 预测模型的基础。
- DIN 和 DIEN
DIN(Zhou 等人,2018 年)和 DIEN(Zhou 等人,2019 年)是对用户点击行为进行建模的两项开创性工作,并已成功应用于工业领域。前者简单地对提取的行为兴趣进行求和,后者则使用 GRU 对兴趣演变进行建模。
- DFN
DFN(Xie 等人,2021 年)认为正面和负面的用户行为都能为用户兴趣的推断提供信息,并提出了一个分别学习点击序列和不喜欢序列的模型。此外,还利用学习到的特征来提炼有噪声的未点击序列,以更好地利用信息。
- DSIN 和 RACP
DSIN(Feng等人,2019年)和RACP(Fan等人,2022年)分别在其模型中引入了会话结构和页面结构。DSIN 首先建立会话内用户兴趣模型,然后使用双向 LSTM 学习兴趣演变。RACP 首先对每个曝光页面中的行为进行建模,然后使用 GRU 学习页面间的兴趣演变。
- CIM
CIM(Zheng 等人,2022 年)将印象模型和转换器结合在一起,从上游相关性过滤器生成的候选信息中提取用户意识。
实施细节
这些特征交互网络的输出与其余特征相结合,并输入最终 MLP 进行点击率预测。
所有实验中的最终 MLP 都包含两层,分别有 256 个和 128 个隐藏单元。
我们使用 AdaGrad(Duchi、Hazan 和 Singer,2011 年)对所有网络进行优化。
超参数设置如下:对于构建的 Avito 数据集,点击序列长度 S = 5,页面内项目数 P = 5,候选项目数 C = 20;对于美团广告数据集,我们设置点击序列长度 S = 20,页面内项目数 P = 10,候选项目数 C = 60。显式/隐式 CIU 中的 k 值是通过实验选择的(详见消融研究)。我们的模型是在美团的大规模机器学习平台上训练的。
评估指标
我们使用公式 (13) 中的 Logloss 和曲线下面积 (AUC) 作为评估指标。Logloss 衡量模型预测概率与标签之间的距离,越低越好。AUC 是 CTR 预测任务中最常用的评价指标。它衡量的是模型将随机选择的正向实例排序为高于随机选择的负向实例的概率,并且具有良好的离线和在线一致性:
其中,D+;D- 表示正例和负例,N+;N- 表示它们的数量。I 是指标函数,f(·) 是点击率预测函数。
数据集上的结果
表 2 总结了构建的 Avito 数据集和美团广告数据集的定量结果。所有实验都重复了 5 次,报告的是平均结果。从表中可以看出,DIN 和 DIEN 比 DNN 更有效,因为它们模拟了用户行为。DFN 由于同时利用了点击和未点击行为,因此取得了更好的结果。值得注意的是,DSIN 和 RACP,尤其是后者,由于引入了信息结构,进一步提高了点击率预测。通过对有价值的决策上下文进行建模和交互,我们的 DCIN 在 Avitoy/MeituanAds 数据集上比 RACP 获得了 0.0041/0.0042 的绝对 AUC 增益。请注意,对于工业推荐和广告系统来说,0.001 的绝对 AUC 增益是非常可观的。
消融实验
为了探索不同模块在 DCIN 中的有效性,我们对美团广告数据集进行了消融研究。所有实验均重复 5 次,并报告平均 AUC。
CIU的影响:在 DCIN 中,CIU 被用来聚合相关项目的显性和隐性上下文,同时抑制无关项目的影响。为了验证其有效性,我们用总和池取代了显性/隐性 CIU。如表 3 所示,AUC 下降了 0.0028/0.0023,表明我们的 CIU 能够区分并利用有用的显性/隐性上下文。
AIAU 的影响。在增强了用户行为兴趣并完善了目标表示之后,AIAU 被用来分析它们之间的关系,以提取特定目标的用户兴趣。为了验证 AIAU 的有效性,我们测试了 DCIN 在没有 AIAU 的情况下的性能:我们将所有增强的行为兴趣汇总,然后将得到的向量与改进后的目标一起输入到最终的 MLP 中。如表 3 所示,AUC 下降了 0.0021,这表明提取特定目标的兴趣至关重要,而提议的 AIAU 符合这一要求。
超参数 k 对 CIU 的影响。CIU 只保留 k 个相关项,而其他无关项则被抑制。如图 4 和图 5 所示,当显性 CIU 中的 k1 设置为 3,隐性 CIU 中的 k2 设置为 10 时,DCIN 的性能最佳。在图 4 中,随着 k1 的增加,模型的性能会更好,因为信息丰富的显式上下文得到了利用。然而,当 k1 进一步增大时,性能会逐渐下降,我们将其归因于引入了有噪声的页内项目。同样,在图 5 中,设置 k2 = 10 来学习隐式上下文在我们的实验中是最佳的,进一步增加 k2 会产生负面效果,因为候选项往往是有噪声的。
在线A/B测试
我们在美团外卖广告系统上进行 A/B 测试,测试期间为 20220705 至 20220711,在线流量为 10%。表 4 列出了以下指标:点击率(CTR)、每千次成本(CPM)和总商品量(GMV)。值得注意的是,我们的在线预测模型已经过高度优化,表 4 中的改进非常明显。目前,DCIN 已在美团外卖广告系统上线,服务于数亿用户的主流量。
案例研究
我们进行了案例研究,以验证 CIU 能够选出最相关的项目。图 3 左侧三列显示了用户点击的项目与相应页面内项目之间的相关性。对于点击的汉堡,其相关项目是披萨和炸鸡,因为它们都是快餐食品。图 3 右侧显示了目标项目与预排序候选项目之间的相关性。当目标项目是薯条汉堡套餐时,候选项目中的炸鸡块、披萨和另一个汉堡都会被激活。这些可视化效果表明,所提出的 CIU 能够识别最相关的项目,从而有效利用显性/隐性语境。
总结
在本文中,我们强调最近的点击率预测方法没有充分利用推荐和广告系统中可用的决策上下文,只能达到次优性能。为缓解这一问题,我们引入了决策上下文交互网络(Decision-Making Context InteractionNetwork,DCIN),该网络可同时模拟广告系统中的显性和隐性决策上下文。特别是,我们提出了一个情境交互单元来区分和利用有利的情境。此外,还提出了一个自适应兴趣聚合单元,用于聚合特定目标用户的行为兴趣。大量离线和在线实验的表现证明了我们模型的有效性。