KDD'23 | CC-GNN：基于内容协同图神经网络的电商召回方法

阿里妈妈技术

于 2023-09-12 16:15:37 发布

阅读量865

点赞数

文章标签：神经网络人工智能深度学习机器学习

本文链接：https://blog.csdn.net/alimama_Tech/article/details/134279817

版权

1.摘要

在电商搜索系统中，普遍流行用图神经网络来做商品召回。这些模型效果虽然很好，但仍存在以下不足：1）没有充分利用商品的图文内容特征；2）在工业级大规模稀疏图结构上的训练效率不高；3）对于长尾查询和冷启动商品的预测不够准确。为了解决这些问题，本文提出了一种新型的基于内容协同的图神经网络（Content Collaborative Graph Neural Network, 以下简称 CC-GNN）。首先，CC-GNN从商品内容中抽取文本短语并将其显式的用于图传播，来捕捉商品之间的语义关系和流行趋势。其次，CC-GNN提出了一个可扩展的图学习框架，来实现更高效的图神经网络训练，包括高效的图构建、基于 MetaPath 的消息传递机制和基于样本难度加噪的图对比学习方法。此外，CC-GNN在监督学习和自监督学习中还采用反事实数据补充来解决长尾/冷启动问题。我们在上亿级别节点规模的真实电商数据集上进行了充分实验，实验结果表明，相比线上最新的图学习模型，CC-GNN在整体效果、长尾查询和冷启商品召回上都有显著的效果提升。基于该项工作整理的论文已发表在KDD 2023，欢迎阅读交流。

论文：E-commerce Search via Content Collaborative Graph Neural Network

下载（点击↓阅读原文）：https://dl.acm.org/doi/abs/10.1145/3580305.3599320

🔍 本期话题：召回算法中，对比学习与传统的双塔向量召回有什么区别，可以帮忙现有召回模型解决哪些不足问题？欢迎评论区留言参与讨论~

2.背景

向量化检索是一种常用的商品召回方法，通常需要先把查询和商品编码为低维向量后再进行检索。而越来越多的模型使用图神经网络（GNN）来做编码。基于GNN的检索模型有两个优点：1）方便融合不同模态关系的数据。例如电商搜索下，用户既可以用文本关键词搜索，也可以用图片、商品搜索。无论是哪一种模态的查询，都可以通过在图中定义一种新的节点和边来描述。2）对于行为反馈稀疏的冷启查询和长尾商品有更好的性能。由于GNN会通过多层卷积不断汇聚相邻节点的信息，因此在节点编码中包含了与其他非冷门商品的近似关系。

然而，电商召回长期以来一直面临着以下三个挑战，这些挑战尚未完全被基于GNN的模型解决，特别是在面对工业级规模的数据时。

挑战一：商品内容的语义表示

学习商品内容（例如标题）的语义表示非常重要，因为它是衡量查询和商品相关性的重要依据。标题中词组的含义通常是由商家及其售卖的商品所决定的，例如词组“2022新款”的确切含义取决于它用于描述哪种商品。此外，词组的含义可能会发生变化（即语义漂移），并且与之相关的商品会受到显著影响。例如，“星光”的原始含义是来自星星的光，如果MacBook Air使用“星光”来描述银色，其他银色的电子产品也会倾向于使用“星光”来描述自己，”星光”的含义就变成了银色，发生了语义漂移。大多数现有研究（如图1(a)所示）都将内容特征作为节点属性，并且没有随着训练数据的变化来更新其语义表示，从而导致搜索性能的下降。

图1

挑战二: 面向工业规模图的学习效率。

我们主要关注两个瓶颈问题：1）对于拥有大规模节点和边的图，每个节点只能与有限的邻居进行信息交换。先前的研究并未考虑到边的性质，因此其学习效率受到了噪声邻居（如图1(a)所示的无关邻居）的影响。2）将有监督学习与自监督对比学习相结合能够很好的增强检索模型性能。但是由于图增强来构建正样本需要很多计算量，在工业级规模的图上是不可行的。

挑战三：长尾查询和冷启动商品。

如图1(a)展示的，大多数节点的度数偏低，而只有少数节点的度数较高。低度数的节点通常包括搜索用户较少的长尾查询和新上市的冷启动商品。对于这些低度节点，由于无法获得足够的边以进行有效的邻域聚合，传统的GNNs无法对其进行准确的表示。这一问题不仅阻碍了召回模型的整体性能，还导致了系统公平性问题。

3.方法

我们提出了一种新颖的内容协同图神经网络（Content Collaborative Graph Neural Network，CC-GNN），用于同时解决上述三个问题。CC-GNN构建了一个内容协同图（图1(b)），同时建模了商品内容和用户反馈，让词组节点显式地参与图信息传播，以获得更准确的语义表达。同时，CC-GNN提出了基于MetaPath的消息传递机制，帮助GNN捕捉每个节点更稳健的拓扑特征。在学习范式方面，CC-GNN结合了监督学习和对比学习。在监督学习中，CC-GNN为长尾查询和冷启动商品引入了反事实补充样本。而在对比学习中，为了提高训练效率，CC-GNN提出了一种基于样本难度加噪的图对比学习方法，该方法较当前的SOTA图对比学习方法有着更低的计算复杂度。最后，CC-GNN通过反事实对比学习进一步增强了长尾查询和冷启动商品的训练。

图2

3.1 内容协同图的构建

为了构建内容协同图 (CC-GNN)，我们需要添加内容节点。出于计算效率和语义信息量的考量，我们从商品标题中提取内容词组。一方面，仅使用单词作为节点是有问题的，因为一些流行词（例如“新款”）的使用非常频繁，使得该节点与过多的邻居节点相连，导致过高的计算和存储开销。另一方面，我们并不需要列举所有的词组，有些信息不全、语义不清晰的词组反而会阻碍信息的传播。因此，我们提取了不定长的内容词组，具体词组的产生过程包括候选词组生成和词组剪枝两个步骤。

候选词组生成

直观地说，相似的商品通常会使用相同且有信息量的词组来描述某个商品。因此，我们选择基于历史交互日志来生成候选词组。首先，我们收集了查询-商品对、共同点击的查询对以及共同点击的商品对等历史交互对。我们从频次超过3次的交互对中提取共现的N-gram词组。为了增加覆盖率（即找到尽可能多的有信息量的词组），我们不限制词组的长度。为了避免冗余，我们对词组进行了重写，并按字母顺序重新排列词组中的单词。

词组剪枝

为了进一步减小词组的规模并加快图计算速度，我们会筛选掉那些过于模糊且与商品特征无关的词组。首先，我们使用一个电子商务命名实体识别（NER）工具来识别每个候选词组中的实体。这些实体大致包括类别词、风格词、材料词等。然后，我们根据一个人工定义的实体类型评分表对词组中每个识别出的实体进行评分。如果词组的总分低于预定义的阈值，则该词组将被删除。

3.2 基于MetaPath的消息传递

我们定义了两条元路径：点击路径和词组路径。对于查询节点，点击路径是，词组路径是。对于商品节点，点击路径是，词组路径是。点击路径和词组路径引导了不同的采样过程。我们将查询节点在点击路径上采样的子图表示为，在词组路径上采样的子图表示为。两个子图的节点大小相等，即对于路径上的每一跳，我们沿相应路径采样个邻居节点。这保证了基于内容的查询/商品在图节点信息传播中发挥同等重要的作用。

我们采用两个图注意力网络（GAT）作为采样子图的聚合器。最终的查询表示是通过合并子图的节点表示获得的。

其中表示使用激活函数的层GAT的输出，代表基于点击子图的查询节点表示，代表基于词组子图的查询节点表示。相应的，我们可以获得商品节点的两个子图，以及对应的商品节点表示。我们没有对词组节点进行子图采样，但词组节点的表示会随着查询和商品节点在GAT计算中更新。

3.3 监督学习中的反事实数据补充

在监督学习下，长尾查询节点和冷启动商品节点由于缺乏有监督正样本而学得不好。为了解决这个问题，我们生成反事实补充样本。对于长尾查询节点，我们首先根据内容特征的余弦相似度检索个相似商品。然后，我们根据点击次数从中抽取个商品。由此，我们添加了最有可能被点击的商品，生成小批次。同样，我们首先选择个相似查询并根据点击次数采样个查询，将查询添加到冷启动商品的小批次中。

反事实数据补充的结果如图2(A)所示。对于图中较小的节点（即长尾查询和冷启动商品），反事实数据将补充更多节点与长尾查询和冷启动商品（红色边）相连接。由于反事实补充样本不是真实点击，我们在监督损失中加入了置信度来控制每个样本的影响：

其中是真正的正对或反事实补充对，是查询的负样本，是温度，是节点表示的余弦相似度，表示置信度。

3.4 基于样本难度加噪的图对比学习

为了提升图对比学习的效率，我们提出了基于样本难度加噪的图对比学习方法（DARP）。对于每个anchor查询，我们通过在上添加一些扰动来获得正样本。扰动的强度取决于节点的度数，即归一化点击次数和归一化短语数。

其中，，，是将点击或短语连接映射到间隔的分段函数。使用了归一化。扰动向量生成如下：

其中是一个随机采样的维向量，是逐元素乘法，表示中每个元素的sign值。该过程如图2(D)所示，生成增强数据并添加到节点嵌入中。较小的节点获得较大的扰动（即小节点的颜色在扰动后变化更显著）。我们删除小批次中的冗余查询并形成一组不同的查询。在集合中查询q的对比损失如下：

其中和是对同一查询q的两次不同增强，是不同查询的增强，作为负样本。对比损失最大化同一查询不同增强表示之间的一致性，同时最小化不同查询之间的一致性。类似的，从小批次中删除冗余商品可以得到一个不同的商品集合。我们对商品进行类似的扩充。

其中，，。在集合中商品的对比损失如下：

其中和是对同一商品t的两次不同增强，是不同商品的增强，作为负样本。最终基于加噪的自监督对比损失如下：

复杂度分析

表1

图对比学习的计算复杂度主要受两部分影响，计算邻接矩阵和图卷积，如表 1 所示。在计算邻接矩阵时，难度感知表示扰动（DARP）与其他embedding增强方法具有相同的计算复杂度，比结构增强方法具有更小的复杂度。基于embedding增强方法（即SimGCL、COSTA和DARP）不会改变原始的图结构，因此它们只需要在输入图卷积之前对邻接矩阵进行归一化，其复杂度与边的数量成比例。对于结构方法的增强（即SGL和GCA），它们需要额外的计算通过丢弃率来随机丢弃边，因此计算复杂度较大。

在图卷积阶段，DARP 的计算复杂度最小。图卷积的复杂度与卷积层数、边数、嵌入大小和增强图数有关。每个图都有复杂度。（1）对于 SGL 和 GCA，它们有一个原始图和两个增广图，因此复杂度为。(2) SimGCL 向每个图卷积层中的embedding添加噪声，这意味着它将卷积计算增加了三倍。（3）COSTA使用保持协方差的特征空间增强来构建单视图的正样本，这意味着它会使卷积计算翻倍。（4）DARP在图卷积之后增强表示，不改变卷积的复杂度。总的来说，DARP 比现有的图对比学习方法具有更小的计算复杂度。

3.5 对比学习中的反事实数据补充

使用对比学习中反事实数据补充（CDS-CL）的动机是从真假相关性的角度处理长尾和冷启动问题。我们认为，真实相关性对应于与内容相关的商品，用户将在同一查询下点击这些商品。虚假相关性对应于不相关的商品，但模型基于反馈的虚假相关性做出错误的预测。

以前的工作主要集中在学习真实的相关性，很少考虑虚假的相关性。我们在对比学习中使用反事实数据补充（CDS-CL）来同时学习真实相关性并消除虚假相关性的影响。（1）我们在表示空间中拉近成对的<头部商品，尾部商品>以学习真实相关性。（2）我们将具有相同点击次数水平的不同商品的表示分开，以消除虚假相关性的影响。

对于每个冷启动商品，我们首先检索相似的热门商品，得到一个热门商品集。然后，我们随机采样一个相似的热门商品作为正样本，应该与在表示空间上相似。对于每个热门商品，我们采样了N个负样本，它们有相同的点击频次，但内容不相似。商品的反事实对比损失是：

其中，互为正样本，是负样本，是温度，sim()是节点表示的余弦相似度。

同样，对于每个长尾查询，我们检索相似的头部查询并形成一个头部查询集，并随机抽取一个头部查询。我们采样了N个负样本，它们具有相同的点击区间，但内容不相似。查询的反事实对比损失是：

其中，互为正样本，为负样本。反事实对比损失是：

CC-GNN最终的损失包括监督损失、对比损失和反事实对比损失三部分：

其中会将几种损失调整到相同的量级。

4.实验

4.1 数据集

我们使用了一个工业商品查询搜索数据集（Industryscale Product Query Search ，简称IPQS）。该数据集是通过收集电子商务平台上91天的日志数据构建而成。IPQS数据集中的每条记录对应一个商品查询和一个被点击的商品，包含有关查询和商品的必要信息，包括商品ID、类别、价格、销量、图片、标题等。我们从前90天的日志数据中随机采样了3500万个查询、8700万个商品和7.097亿个交互作为训练数据，使用最后一天的日志数据进行测试。我们移除在训练集中没有出现的商品。

4.2 整体召回性能评估

表2

根据表2所示，CC-GNN在所有评估指标上明显对比方法。CC-GNN相对于最佳基线（即LasGNN），在整体的、和方面分别提高了11.8%、14.5%和16.3%。

4.3 长尾和冷启动问题

图3

根据图3的观察结果，我们可以看到所有模型在头部查询和长尾查询之间存在着较大的性能差距。所有基线模型在长尾查询上的表现非常接近。然而，CC-GNN显著提升了长尾查询的性能。具体而言，CC-GNN在长尾查询上的性能优于AdaptiveGCN在头部查询上的性能。相比最佳基线，CC-GNN在长尾查询上的、和分别提高了13.7%、16.7%和14.2%。
根据图3的观察结果，CC-GNN极大地提升了冷启动商品的性能。相比于其他模型，CC-GNN在冷启动商品上的、和分别提高了11.1%，13.5%，9.8%。

4.4 词组节点的语义表示

图4

我们提供一个case study，展示CC-GNN能够捕捉内容词组的语义。首先，我们随机从IPQS数据集中选择一个商品，并收集与该商品在内容协同图中连接的12个词组（从P1到P12）。然后，我们提取这些词组在CC-GNN之前和之后的embedding。接下来，我们计算商品embedding与CC-GNN之前和之后的词组embedding之间的余弦相似度。

如图所示，在CC-GNN之前，所有词组与商品的相似度都非常高（即大于0.99）。需要注意的是，由于所有现有方法都不会更新词组的embedding，这意味着所有现有方法都无法区分这些词组。相反，在CC-GNN之后，词组之间的差异变得更加明显。这表明CC-GNN可以根据电商训练数据调整词组的语义表达。在CC-GNN之前，与商品的相似度最高的词组是Phrase3，在CC-GNN之后，相似度最高的是Phrase9。通过分析这些词组，我们可以看到Phrase3包含一个非常普遍、噪声较大的词语“fashion”，它并不能描述商品的属性，并且缺少一个重要的特征词“with sleeve”，这是消费者购买雨衣时会考虑的一个重要特征。因此，Phrase3确实是有噪声的，Phrase9比Phrase3更好。CC-GNN可以通过在图传播中学习词组语义来正确识别描述商品的最相关词组。

4.5 推荐模型上的性能评估

CC-GNN包含多个组件，可以叠加在其他模型上，或应用于其他任务。我们提出的难度感知表示扰动（DARP）和对比学习中的反事实数据补充（CDS-CL）可以方便的插入到各种模型中，不限于图学习方法。此外，尽管CC-GNN的主要目的是解决大规模的商品召回问题，但DARP和CDS-CL可以应用于其他任务。我们在亚马逊数据集上进行了多模态推荐系统的评估。选用的Amazon Sports数据集包含了3.6万个用户、1.8万个商品和29.6万个交互记录，是一个广泛使用的推荐数据集。

图5

我们将DARP和CDS-CL应用于基础推荐模型。为了更全面的对比，我们使用了五个具有不同模型架构和学习范式的代表性基础模型。我们观察到：

DARP对比不同模型都有稳定的性能提升。特别是在监督模型（如VBPR、MMGCN和FREEDOM）上，DARP的改进更为显著，而在对比学习模型（如SLMRec和BM3）上的改进较小。一个可能的原因是，DARP旨在区分物品表示以提取额外的监督信号。
CDS-CL也稳定提高了不同模型的性能。特别是，CDS-CL在对比学习方法（如SLMRec和BM3）上获得了更大的改进。对比学习关注物品本身及其增强方式，长尾/冷启动物品在数据集中的表示较少，并且它们的表示学习对其增强的效果不太敏感。相反，对比学习中的反事实数据补充旨在将知识从头部/热门物品转移到长尾/冷启动物品，因此可以进一步改善对比学习方法的性能。
当结合DARP和CDS-CL时，在所有基础模型上可以获得最佳结果。这一现象表明，DARP和CDS-CL可以组合应用在各种模型上，从不同角度获得最大的性能提升。

5.总结

本文提出了一种高效的图学习方法CC-GNN，在电商召回中表现出优越的性能，它捕获了内容语义迁移现象，缓解了长尾查询和冷启动商品训练和召回效果不佳的问题。CC-GNN提出的模块，如内容协同图和反事实数据补充，可以应用到不同的GNN基线模型中，帮助其提升召回效果。此外，在公开数据集上的实验证明，我们的方法应用于推荐模型也可以获得性能提升。这些结果都表明，我们提出的方法有进一步增强搜索和推荐系统性能的潜力。

🔍 本期话题：召回算法中，对比学习与传统的双塔向量召回有什么区别，可以帮忙现有召回模型解决哪些不足问题？欢迎评论区留言参与讨论~

参考文献

Inductive Representation Learning on Large Graphs. NeurIPS 2017.
DC-GNN: Decoupled Graph Neural Networks for Improving and Accelerating Large-Scale E-commerce Retrieval. WWW 2022.
Self-supervised Graph Learning for Recommendation. SIGIR 2021.
Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation. SIGIR 2022.
COSTA: Covariance-Preserving Feature Augmentation for Graph Contrastive Learning. KDD 2022.
Graph Contrastive Learning with Adaptive Augmentation. WWW 2021.

END