TransGNN: Harnessing the Collaborative Power of Transformersand Graph Neural Networks for Recommend

最新推荐文章于 2024-06-05 17:54:07 发布

流浪的诗人，

最新推荐文章于 2024-06-05 17:54:07 发布

阅读量1k

点赞数 32

分类专栏：读论文文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_59482564/article/details/137515891

版权

读论文专栏收录该内容

73 篇文章 6 订阅

订阅专栏

ABSTRACT

图神经网络 (GNN) 通过对用户-项目交互图进行建模，已成为协作过滤 (CF) 的有前途的解决方案。现有基于 GNN 的推荐系统的核心涉及沿着用户-项目交互边缘传递递归消息以细化编码嵌入。尽管它们已被证明是有效的，但当前基于 GNN 的方法遇到了有限感受野和存在噪声“兴趣无关”连接的挑战。相比之下，基于 Transformer 的方法在自适应和全局地聚合信息方面表现出色。然而，它们在大规模交互图上的应用受到固有的复杂性和捕获复杂、纠缠结构信息的挑战的阻碍。在本文中，我们提出了 TransGNN，这是一种新颖的模型，它以交替的方式集成 Transformer 和 GNN 层，以相互增强它们的能力。具体来说，TransGNN 利用 Transformer 层来拓宽感受野，并从边缘解开信息聚合，从而聚合来自更多相关节点的信息，从而增强 GNN 的消息传递。此外，为了有效捕获图结构信息，位置编码被精心设计并集成到 GNN 层中，将此类结构知识编码为节点属性，从而增强 Transformer 在图上的性能。通过提议对 Transformer 最相关的节点进行采样，以及两种有效的样本更新策略来降低复杂性，也减轻了效率方面的考虑。此外，理论分析表明，与 GNN 相比，TransGNN 的表达能力更高，而线性复杂度仅略有增加。对五个公共数据集的大量实验验证了 TransGNN 的有效性和效率。

关键词图神经网络、变压器、推荐系统

1 INTRODUCTION

推荐系统在各种在线平台中发挥着至关重要的作用，因为它们通过向用户推荐有用的内容成功地解决了信息过载的挑战[14, 49]。为了准确地推断用户偏好，对用户和项目信息表示进行编码是基于观察到的用户-项目交互的有效协同过滤（CF）范式的核心部分[18, 32]。近年来，用于建模图结构数据的图神经网络（GNN）的发展迅速增多 [41, 42]。一个有前途的方向是沿着用户-项目交互执行信息传播，以基于递归聚合模式完善用户嵌入[17,40,46]。

尽管现有的基于图的 CF 模型很有效，但一些基本挑战仍未得到充分解决。首先，消息传递机制依赖边来融合图结构和节点属性，导致强偏差和潜在噪声[3]。例如，最近关于眼球追踪的研究表明，用户不太可能浏览推荐列表中排名较低的项目，而他们倾向于与列表顶部的前几个项目进行交互，无论这些项目的实际相关性如何[ 22、23]。因此，交互图中的拓扑连接受到上述位置偏差的阻碍，导致消息传递的说服力较差[6]。此外，由于热门商品的过度推荐，用户可能会与自己不感兴趣的商品进行交互[50]，导致用户-商品交互图中形成“兴趣无关连接”。因此，根据用户对推荐列表的反馈生成的图表可能无法忠实地反映用户偏好[10]。更糟糕的是，沿边缘的嵌入传播会加剧噪声影响，可能会扭曲基于 GNN 的模型中潜在用户兴趣的编码.

其次，GNN 的感受野也受到过度平滑挑战的限制 [27]。事实证明，随着 GNN 架构的深入并达到一定程度，模型将不再对训练数据做出响应，并且此类深度模型获得的节点表示往往会过度平滑，也变得难以区分 [2, 5 、 9、 26]。因此，GNN 模型的最佳层数通常限制为不超过 3 [17,40,46]，其中模型最多只能捕获 3hop 关系。然而，在现实世界的应用中，项目序列的长度通常超过 3，这表明存在超出此限制的重要序列模式。由于网络结构的固有限制，基于 GNN 的模型很难捕获此类长期序列信息。

幸运的是，Transformer 架构 [37] 似乎提供了解决这些固有限制的途径。由于自注意力机制，每个项目都可以聚合用户-项目交互序列中所有项目的信息。因此，Transformer 可以捕获序列数据中的长期依赖性，并取代卷积神经网络和循环神经网络，成为许多推荐任务中新的事实上的标准 [13, 21]。然而，虽然 Transformer 展现出全局和自适应聚合信息的能力，但它们有效利用图结构信息的能力受到限制。这种限制源于这样一个事实，即 Transformers 中的聚合过程不依赖于边缘，导致低估了关键的历史交互[29]。

在本文中，我们探讨 Transformer 和 GNN 的集成是否可以利用各自的优势来相互增强性能。通过利用 Transformer，GNN 的感受野可以扩展到包含更多相关节点，甚至是那些远离中心节点的节点。相反，GNN 可以帮助 Transformer 捕获复杂的图拓扑信息并有效聚合相邻区域的相关节点。然而，集成 GNN 和 Transformer 对图结构 CF 数据建模提出了重大挑战，主要包括以下三个核心方面。（1）注意力采样模块中如何采样最相关的节点？由于用户-项目交互图可能包含“兴趣无关”的连接，直接聚合来自所有交互边的信息将损害准确的用户表示。同时，考虑最相关的节点不仅可以降低计算复杂度，而且可以从噪声节点中过滤掉不相关的信息。 (2) Transformer 和 GNN 如何在协作框架中有效耦合？考虑到 Transformer 和 GNN 固有的各自优点，它提出了一个逻辑进程来设想一个协作框架，其中这两个模块在用户建模中相互增强。（3）如何有效地更新注意力样本以避免耗尽复杂度？每个中心节点在整个图数据集中计算自注意力权重需要 O (N 2) 的时间和空间复杂度，这带来了诸如随着图越来越大而出现内存不足问题等挑战。因此，迫切需要设计有效的策略来更新注意力样本。

为了应对上述挑战，我们引入了一个名为 TransGNN 的新颖框架，它融合了 GNN 和 Transformer 的强大功能。为了降低复杂性并减轻不相关节点的影响，我们首先提出基于语义和结构信息为每个中心节点采样注意力节点。之后，我们介绍三种类型的位置编码：（i）基于最短路径的位置编码，（ii）基于程度的位置编码，以及（iii）基于PageRank的位置编码。这种位置编码将各种粒度的结构拓扑信息嵌入到节点嵌入中，有助于为 Transformer 提取简化的图结构信息。然后，我们设计了 TransGNN 模块，其中 Transformer 和 GNN 交替使用以相互增强其性能。在 GNN 层内，Transformers 聚合低复杂度的注意力样本信息，以扩展 GNN 的感受野，专注于最相关的节点。相反，在 Transformers 中，GNN 的消息传递机制有助于融合表示和图结构以捕获丰富的拓扑信息。消息传递过程还促进了从邻域中有效检索更相关的节点信息。此外，我们提出了两种有效的方法来更新注意力样本，这些方法可以很容易地推广到大规模图。最后，对 TransGNN 的表达能力和复杂性进行了理论分析，证明了与仅具有边际额外线性复杂性的 GNN 相比，其表达能力得到了增强。 TransGNN 经过五个公共基准的广泛评估，实质性改进证明了其优越性。

我们的贡献可概括如下：

• 我们引入了一种新颖的模型，TransGNN，其中 Transformer 和 GNN 协同协作。 Transformer 拓宽了 GNN 的感受野，而 GNN 则捕获必要的结构信息以增强 Transformer 的性能。

• 为了减轻复杂性的挑战，我们引入了采样策略以及两种有效更新相关样本的有效方法。

• 我们对 TransGNN 的表达能力和计算复杂度进行了理论分析，结果表明，与 GNN 相比，TransGNN 表现出更大的效力，并且额外的计算开销很小。

• 我们对来自不同领域的五个公共数据集进行了全面的实验，其中 TransGNN 的性能显着且一致地优于竞争基线模型。从技术和实证角度对 TransGNN 的合理性进行了深入分析。

2 RELATED WORK

回顾图协同过滤范式。基于图的协同过滤范式引入图结构来表示用户和项目之间的交互。给定 I 个用户和 J 个项目，用户集 U = {u1, ..., uI} 和项目集 V = {v1, ..., vJ}，如果 user ui 则构造用户-项目交互图 G 中的边已与项目 v j 交互。通过合并用户-项目交互图，基于图的 CF 方法能够捕获多阶连接信息，从而获得更准确的推荐结果。

图神经网络的推荐。最近的工作已经开始制定不同的图神经架构，通过嵌入传播来模拟复杂的用户-项目交互景观。使用消息传递模式，用户和项目都被转换为保留多跳连接信息的嵌入。值得注意的是，PinSage [46] 和 NGCF [40] 将其基础锚定在谱域领域内的图卷积框架上。随后，LightGCN [17] 提倡采用更简化的方法，将复杂的非线性变换放在一边，并支持应用于相邻表示的基于总和的池化。尽管 GNN 在 CF 中取得了最先进的性能，但有限的感受野损害了它们的能力。浅层 GNN 只能聚合附近的信息，这表现出很强的结构偏差和噪声，而深层 GNN 则存在过度平滑问题，聚合了许多不相关的信息 [30]。

推荐使用变形金刚。最近，注意力模块在推荐场所得到了广泛的研究，结果的非凡表现 [21, 24]。特别是自注意力模型，由于其在项目序列中进行点对点特征交互的能力而引起了广泛关注。这种机制有效地解决了全局依赖性的挑战，并能够合并富含丰富信息的较长序列[25, 28]。许多现有的工作都致力于将 Transformer 架构推广到图数据。然而他们遇到的主要问题是：（1）节点式位置编码的设计。（2）大图上成对注意力的计算成本高昂。对于位置编码，拉普拉斯编码[12]和随机游走已经在理论上和经验上进行了研究。关于可扩展性问题，一些工作尝试将感受野从全局限制为局部感受野，例如ADSF[48]引入随机游走来生成高阶局部感受野，而GAT[38]是极端情况，其中每个节点只能看到其一跳邻居。

3 METHODOLOGY

本节首先阐述 TransGNN 框架，然后详细说明每个组成部分。随后，我们深入研究了 TransGNN 的表达能力的理论检验，并对其计算复杂度进行了分析。

3.1 Model Framework

TransGNN的框架如图1所示，由三个重要组件组成：（1）注意力采样模块，（2）位置编码模块，（3）TransGNN模块。我们首先通过考虑注意力采样模块中的语义相似性和图结构信息来对每个中心节点进行最相关的节点采样。然后在位置编码模块中，我们计算位置编码来帮助Transformer捕获图拓扑信息。在这两个模块之后，我们使用 TransGNN 模块，它按顺序包含三个子模块：（i）Transformer 层，（ii）GNN 层，（iii）样本更新子模块。其中，Transformer层用于扩展GNN层的感受野，高效聚合注意力样本信息，而GNN层则帮助Transformer层感知图结构信息，获取更多邻居节点的相关信息。集成样本更新子模块以高效更新注意力样本。

图 1：TransGNN 的框架。我们首先对中心节点的相关节点进行采样，然后计算位置编码以通过结合结构信息来增强原始属性。在TransGNN模块中，Transformer层和GNN层相互改进，其次是样本更新子模块。

3.2 Attention Sampling Module

计算整个用户-项目交互图的注意力提出了两个显着的挑战：（i）注意力计算的计算复杂度呈二次方扩展（O（N 2）），这对于大规模推荐系统来说变得不切实际。（ii）在全局注意力设置下，不相关的用户-项目交互也被纳入其中，导致性能不佳。

在推荐系统的背景下，我们认为没有必要为每个节点计算整个图中的注意力。相反，优先考虑最相关的节点就足够了，从而降低计算复杂性并消除噪声节点信息。因此，我们主张在注意力采样模块中对给定用户或项目节点最相关的节点进行采样。为了促进这一点，我们首先计算语义相似度矩阵：

其中 X ∈ RN ×d 由节点的属性组成。然而，通过S我们只能得到原始的语义相似度，忽略了用户偏好的结构复杂性。认识到用户对一项的偏好可能会影响他们对另一项的亲和力（由于共享属性或潜在因素），我们通过在采样前考虑邻居节点的偏好来完善相似性度量。我们使用以下等式来更新相似度矩阵以纳入相邻节点的偏好：

其中α为平衡因子，本文中我们将α设置为0.5。 ˆ A = A + I 其中 A ∈ RN ×N 是邻接矩阵，I 是单位矩阵。基于新的相似度矩阵 S ∈ RN ×N ，对于输入图中的每个节点 vi ∈ V，我们采样最相关的节点作为其注意力样本，如下所示：

注意力样本：给定输入图 G 及其相似度矩阵 S，对于图中的节点 vi，我们将其注意力样本定义为集合 Smp(vi ) = v j |v j ∈ V 和 S (i, j) ∈ top-k( S (i, :)) 其中 S (i, :) 表示 S 的第 i 行，k 作为超参数，决定应关注多少个节点。

3.3 Positional Encoding Module

推荐系统中的用户-项目交互体现了复杂的结构信息，这对于导出个性化推荐至关重要。与 Transformer 可以轻松捕获顺序模式的网格状数据不同，交互图呈现出更具挑战性的拓扑导航。为了丰富 Transformer 的拓扑知识，我们引入了三种针对推荐场景定制的不同位置编码：（i）基于最短路径跳跃的位置编码。 (ii)基于度数的位置编码。 (iii) 基于 PageRank 的位置编码。前两种编码表示用户和项目之间的接近度，强调用户交互或项目的受欢迎程度的多样性和频率。同时，最后的编码表示由图拓扑决定的重要性。

3.3.1 Shortest Path Hop based Positional Encoding.

交互图中的用户-项目接近度可以暗示用户偏好。对于每个用户来说，到各个项目的距离（反之亦然）可能会产生不同的影响。我们通过利用最短路径跃点来封装它。具体来说，我们将最短路径跳跃矩阵表示为 P，对于每个节点 vi ∈ V 及其注意力样本节点 v j ∈ Smp(vi )，最短路径跳跃为 P (i, j)，我们计算基于位置编码的最短路径跳跃(SPE) 对于每个注意力样本节点 v j 为：

其中 MLP(·) 作为两层神经网络实现。

3.3.2 Degree based Positional Encoding.

用户的交互频率或项目的受欢迎程度在推荐中起着关键作用。可以使用图中的节点度来利用项目的受欢迎程度或用户的不同品味。因此，我们建议使用度数来计算位置编码。形式上，对于任何度数为 degi 的节点 vi，我们计算度数基于位置编码（DE）为：

3.3.3 Page Rank based Positional Encoding.

某些用户或项目由于其在交互图中的位置而发挥更大的影响力。 PageRank 提供了一种衡量这种影响力的方法，从而促进更好的推荐。为了获得结构重要性的影响，我们建议根据每个节点的页面排名值来计算位置编码。形式上，对于节点 vi，我们将其页面排名值表示为 Pr(vi )，并且我们将基于页面排名的位置编码 (PRE) 计算为：

通过将上述编码与原始用户/项目节点属性聚合，我们丰富了 Transformer 对推荐环境的理解。具体来说，对于中心节点 vi 及其注意力样本 Smp(vi )，我们通过以下方式聚合位置编码：

其中xi，xj分别是vi，v j的原始属性，AGG(·)是聚合函数，COMB(·)是组合函数。在本文中，我们使用两层 MLP 作为 COMB(·)，使用向量级联作为 AGG(·)。

3.4 TransGNN Module

传统的图神经网络（GNN）由于其接受域狭窄以及深层网络中的过度平滑问题，在理解用户和项目之间的广泛关系方面表现出局限性。至关重要的是，与用户相关的项目在交互空间中可能是遥远的。尽管 Transformer 可以感知远程交互，但它们经常会错过推荐场景中结构化数据的复杂性，从而进一步受到计算复杂性的挑战。 TransGNN 模块协同 GNN 和 Transformer 的优势来缓解这些问题。该模块由：(i) Transformer 层、(ii) GNN 层和 (iii) 样本更新子模块组成。

3.4.1 Transformer Layer.

为了优化用户项目推荐，Transformer 层拓宽了 GNN 的视野，重点关注潜在重要但遥远的项目。为了降低复杂度并过滤掉不相关的信息，我们只考虑每个中心节点最相关的样本。下面我们以中心节点 vi 及其注意力样本 Smp(vi ) 为例来说明 Transformer 层，对于其他节点，这个过程是相同的。

我们将 Transformer 层的输入表示为 H ∈ RN ×din ，中心节点 vi 的表示为 hi 。我们将注意力样本 Smp(vi ) 的表示堆叠为矩阵 HSmp i ∈ Rk ×din 。我们使用三个矩阵 Wq、Wk、Wv ∈ Rdin×dout 分别将相应的表示投影到 Q、K 和 V，并根据注意力分布将信息聚合为：

其中Q是查询的表示，K、V是键和值的表示。这个过程可以扩展到多头注意力，如下所示：

其中 m 是头编号，Contact(·) 表示连接函数，Why 是投影矩阵，每个头的计算公式为等式 7 中的 hi。

3.4.2 GNN Layer.

该层结合了交互和结构的细微差别，帮助 Transformer 更深入地利用用户-项目交互图。给定节点 vi ，GNN 层的消息传递过程可以描述为：

其中 N (vi ) 是 vi 的邻居节点集。 hi、hk分别是vi、vk的表示。 Message(·)和Combine(·)是GNN层定义的消息传递函数和聚合函数。

3.4.3 Samples Update Sub-Module.

在 Transformer 和 GNN 层之后，注意力样本应该根据新的表示进行更新。然而，直接计算相似度矩阵的计算复杂度为O(N 2)。在这里，我们介绍两种更新注意力样本的有效策略。

(i) Random Walk based Update.

认识到用户表现出一致的口味特征的倾向，这种方法深入研究每个采样项目的局部邻域，以发现潜在的相关项目。我们采用随机游走策略来探索每个采样节点的局部邻域。具体来说，根据相似度确定随机游走的转移概率，如下：

在消息传递过程中可以有效地计算传输概率。基于转移概率，我们为每个注意力样本遍历长度为 L 的节点序列，然后根据新的表示在探索的节点中选择新的注意力样本。

(ii) Message Passing based Update.

基于随机游走的更新策略有额外的开销。我们提出了另一种更新策略，利用 GNN 层的消息传递来更新样本，而无需额外的开销。具体来说，我们在 GNN 层的消息传递过程中聚合每个中心节点的邻居节点的注意力样本。这背后的直觉是，邻居节点的注意力样本也可能是中心节点的相关注意力样本。我们将邻居节点的注意力样本集表示为注意力消息，定义如下：

因此，我们基于新的表示在节点 vi 的 Attn_Msg(vi ) 中选择新的注意力样本。

3.5 Model Optimization

为了训练我们的 TransGNN 模型，我们使用成对排名损失来优化项目的相对排名 [8]：

我们将每个真实项 it+1 与随机采样的负项 i− t+1 配对。 P (it+1) 和 P (i − t+1) 是 TransGNN 给出的预测分数，σ (.) 表示 sigmoid 函数。

3.6 Complexity Analysis

这里介绍并讨论了 TransGNN 的复杂性。注意力采样模块和位置编码模块的开销可归因于数据预处理阶段。注意力采样模块的复杂度为O(N 2)，位置编码模块最复杂的部分是最短跳变矩阵P的计算。考虑到实际应用中的图稀疏且边权重为正，Johnson算法可以采用[1]来促进分析。借助堆优化，时间和空间复杂度可以降低到O(N(N+E)logE)，其中N是节点数，E是边数。与 GNN 相比，TransGNN 模块的额外开销主要集中在 Transformer 层和注意力样本更新上。 Transformer 层带来的额外复杂度是 O(N k)，其中 k 是注意力样本数，对于消息传递机制，样本更新的额外复杂度是 O(N kda)，其中 da 是平均度（额外的复杂度将如果我们使用基于随机游走的更新，则为 O (NkL)）。因此，我们表明，与 GNN 相比，TransGNN 最多具有 O (N (N + E) log E) 数据预处理复杂度和线性额外复杂度，因为 kda 是常数并且 kda << N 。

3.7 Theoretical Analysis

在这里，我们通过以下两个定理及其证明来展示 TransGNN 的表达能力。

定理1. TransGNN至少具有GNN的表达能力，任何GNN都可以由TransGNN表达。

证明。如果我们添加注意力掩码作为 top 1 掩码，Transformer 层的方程将变为：

我们以 GCN 层为例，消息传递可以推导为

其中 σ (·) 是激活函数，如果我们将 Wv 设置为对角矩阵，对角值为 √ doout − 1，则方程 15 将变为：

因此，TransGNN至少具有GNN的表达能力。

定理 2. TransGNN 可以比 1-WL Test 更具表现力。

证明。借助 Transformer 层和位置编码，TransGNN 可以聚合更多相关信息和结构信息来改进消息传递过程，比 1-WL Test [11] 更具表现力。我们在图2中给出了说明。这两个图无法区分通过 1-WL 测试。然而，由于 Transformer 层扩展了感受野，并且位置编码可以捕获局部结构，因此可以通过 TransGNN 来区分它们。例如左上角的节点分别得到最短路径信息{0,1,3,3}和{0,1,2,3}。

4 EXPERIMENTS

o 评估我们的 TransGNN 的有效性，我们的实验旨在回答以下研究问题：

• RQ1：我们提出的 TransGNN 能否超越不同类别的最先进基线？

RQ2：TransGNN 的关键组件（例如，注意力采样、位置编码、消息传递更新）如何影响不同数据集上的整体性能？

• RQ3：不同的超参数如何影响TransGNN？

• RQ4：TransGNN 在不同的 GNN 层下表现如何？

• RQ5：与基线相比，TransGNN 的效率如何？

• RQ6：TransGNN 表示的可视化与基线相比如何？

4.1 Experimental Settings

4.1.1 Datasets

我们在五个现实世界代表性数据集（即 Yelp、Gowalla、Tmall、Amazon-Book 和 MovieLens）上评估所提出的模型，这些数据集在领域和稀疏性方面差异很大：

• Yelp：此常用数据集包含从 Yelp 收集的营业场所的用户评分。继其他关于隐式反馈的论文[19]之后，我们将用户评级的场所视为交互项目，并将未评级的场所视为非交互项目。

• Gowalla：包含从Gowalla 获取的用户地理位置签到记录。该评估数据集生成于2016年至2019年期间。

• 天猫：该电商数据集由天猫发布，包含用户的网购行为。我们收集了 2017 年 12 月期间的页面浏览交互。

• Amazon-Book：Amazon-review 是广泛使用的产品推荐数据集[16]。我们从集合中选择亚马逊图书。同样，我们使用 10 核设置来确保每个用户和项目至少有 10 次交互。

• MovieLens：这是一个用于评估推荐算法的流行基准数据集[15]。在这项工作中，我们采用了成熟的版本MovieLens 10m（ML-10m），其中包含71567个用户对10681部电影的约1000万个评分。 MovieLens 10M 数据集的用户是随机选择的，每个用户至少对 20 部电影进行评分。

• Yelp：此常用数据集包含从 Yelp 收集的营业场所的用户评分。继其他关于隐式反馈的论文[19]之后，我们将用户评级的场所视为交互项目，并将未评级的场所视为非交互项目。 • Gowalla：包含从Gowalla 获取的用户地理位置签到记录。该评估数据集生成于2016年至2019年期间。 • 天猫：该电商数据集由天猫发布，包含用户的网购行为。我们收集了 2017 年 12 月期间的页面浏览交互。 • Amazon-Book：Amazon-review 是广泛使用的产品推荐数据集[16]。我们从集合中选择亚马逊图书。同样，我们使用 10 核设置来确保每个用户和项目至少有 10 次交互。 • MovieLens：这是一个用于评估推荐算法的流行基准数据集[15]。在这项工作中，我们采用了成熟的版本MovieLens 10m（ML-10m），其中包含71567个用户对10681部电影的约1000万个评分。 MovieLens 10M 数据集的用户是随机选择的，每个用户至少对 20 部电影进行评分。

4.1.2 Evaluation Protocols.

遵循最近的 CF 模型 [17, 43]，我们采用全等级评估协议。根据该协议，在对用户进行评估期间，测试集中的积极项目和所有非交互项目都会被集体排名和评估。为了评估推荐性能，我们选择了广泛认可的指标，即 Recall@N 和 Normalized Discounted Cumulative Gain (NDCG@N) [31, 40]。这些指标中的 N 值设置为 20 和 40。

4.1.3 Baselines.

我们将 TransGNN 与五种基线进行比较：（1）基于自动编码器的方法，即 AutoR [33]。（2）基于GNN的方法，包括GCMC[4]、PinSage[46]、NGCF[40]、LightGCN[17]和GCCF[7]。 (3)基于超图的方法，包括HyRec[39]和DHCF[20]。（4）基于GNN的自监督学习增强方法，包括MHCN[47]、SLRec[45]和SGL[43]。 (5) 为了验证 Transformer 和 GNN 集成的有效性，我们还包括了 Hypergraph Transformer 和自监督学习增强方法，即 SHT [44] 进行比较。

表 2：推荐性能与基线模型的数值比较。最佳表现基线的结果带有下划线。粗体数字表明与其他基线相比，通过成对 t 检验比较，统计上显着改善 (p < .01)。 ★、*、† 和 ‡ 分别表示基于 GNN、基于 HGNN、SSL 增强和基于 TransformerGNN 的模型。

4.1.4 Reproducibility

我们使用三个 Transformer 层，中间夹有两个 GNN 层。对于变压器层，使用多头注意力。对于 GNN 层，我们使用 GraphSAGE 作为主干模型。我们在主要实验中采用基于消息传递的注意力更新。我们考虑注意力采样大小 d ε {5, 10, 15, 20, 25, 30, 35} ，头数 h ε {2, 4, 8, 16, 32}，丢失率 d ε [0, 1] 和权重衰减 d ∈ [0, 1e -2]。我们应用网格搜索来找到每个模型的最佳超参数。我们使用 Adam 来优化我们的模型。我们使用早期停止策略训练每个模型，直到在单个 NVIDIA A100 SXM4 80GB GPU 上的 20 个 epoch 中验证召回值没有提高。报告五次运行的平均结果。

4.2 Overall Performance Comparison (RQ1)

在本节中，我们通过对 TransGNN 框架进行整体性能评估来验证 TransGNN 框架的有效性在本节中，我们通过对 TransGNN 框架进行整体性能评估来验证 TransGNN 框架的有效性

与 AutoR 等基于自动编码器的方法相比，我们观察到基于 GNN 的方法（包括 TransGNN）表现出优越的性能。这在很大程度上归因于 GNN 熟练地导航和解释图结构数据的复杂性的固有能力。自动编码器虽然在潜在特征提取方面非常高效，但通常无法捕捉用户-项目交互中固有的关系动态，而这正是 GNN 的强项。当考虑 HyRec 和 DHCF 等超图神经网络 (HGNN) 时，很明显它们超越了许多基于 GNN 的方法（例如 GCMC、PinSage、NGCF、STGCN）。这种增强性能的关键在于它们捕获高阶和全局图连接性的能力，这是传统 GNN 经常表现出局限性的维度。这一观察强调了能够理解推荐系统中更复杂和互连的图形结构的模型的必要性。 TransGNN 通过整合 Transformer 的优势而脱颖而出，特别是在扩大感受野方面。这种集成使 TransGNN 能够专注于更广泛、更相关的节点集，从而释放 GNN 在全局关系学习中的潜在潜力。这种综合在捕获远程依赖性方面特别有效，这是独立 GNN 的一个显着限制。

在自监督学习 (SSL) 领域，MHCN、SLRec 和 SGL 等方法已经显示出基于图的协作过滤模型的改进。这些进步主要归功于增强学习任务的结合，这为参数学习过程引入了有益的正则化。该策略有效地降低了基于输入数据本身的过度拟合风险。然而，TransGNN 超越了这些 SSL 基线，我们将其成功归功于 Transformer 架构促进的全局感受野。与基于 SSL 的方法相比，这种全局视角能够实现更大规模的信息自适应聚合，而基于 SSL 的方法仅限于批量级采样，从而限制了其范围。此外，SSL 方法通常缺乏有效解决数据噪声所需的稳健性。 TransGNN 以其注意力采样模块巧妙地解决了这一挑战，过滤掉不相关的节点，从而细化图结构并显着降低噪声影响。

TransGNN 性能的一个有趣的方面是在 Recall@K 和 NDCG@K 等评估指标的不同 top-K 设置下观察到的。值得注意的是，当 K 较小时，TransGNN 表现出比基线模型更实质性的性能改进。考虑到推荐系统中的位置偏差，这一点尤其重要，因为用户更倾向于关注推荐列表中位置较高的项目。 TransGNN 在这些场景中的功效表明它非常适合生成与用户偏好密切相关的用户友好的推荐，尤其是在推荐列表的顶部。

4.3 Ablation Study (RQ2)

为了验证所提出模块的有效性，我们分别删除了 TransGNN 四个主要部分中的应用技术，即注意力采样模块（-AS）、位置编码模块（-PE）、TransGNN 模块（-Trans 和-GNN）和注意力更新模块（-MP）。我们还消除了位置编码模块和注意力更新模块中的细节组件。具体来说，我们分别删除了基于最短路径跳数 (-SPE)、基于度数 (-DE) 和基于页面排名 (-PRE) 的位置编码。对于注意力更新模块，我们还将基于消息传递的注意力更新替换为基于随机游走的更新（+RW）。我们使用 GraphSAGE 作为主干 GNN 来报告忽略不同组件时的性能。所有设置均与默认设置相同。这些变体经过重新训练，以便在 Yelp、Gowalla 和 Tmall 数据集上进行测试。从表3中，我们得到以下主要结论：

• 当注意力采样模块被删除（-AS）时，所有数据集上都会观察到明显的性能下降。这凸显了 TransGNN 中注意力采样策略的关键作用，它有效地过滤掉全局注意力上下文中的不相关节点。如果没有这个模块，模型在节点选择方面就会变得不那么挑剔，从而导致针对性较差且相关性可能较低的推荐。这强调了集中注意力在管理庞大而复杂的用户-项目交互空间中的重要性。

• 排除位置编码模块（-PE）会导致结果受损，这表明仅靠 Transformer 层无法充分捕获结构信息。当单独删除位置编码的各个组件（基于最短路径跳的 (-SPE)、基于度的 (-DE) 和基于 PageRank 的 (PRE)）时，观察到的性能下降进一步证实了这一点。这些编码中的每一种都对模型对图拓扑的理解做出了独特的贡献，分别反映了用户-项目的接近度、交互频率和结构重要性。

• 当移除任一层（-Trans 和-GNN）时，清楚地证明了 Transformer 层和 GNN 层同时存在的必要性。性能的显着下降强调了这两层之间的协同关系。 Transformer 层具有广阔的感受野，为表格带来了全局视角，而 GNN 层则有助于对图拓扑的全面理解。它们的组合操作对于 TransGNN 中用户建模的整体方法至关重要，融合了全球和本地见解。

• 在检查采样更新策略时，我们发现基于随机游走的更新(+RW) 的性能不如基于消息传递的更新。这可能归因于边缘的固有噪声，这可能导致随机游走到不太相关的节点，从而凸显了更结构化的更新机制的优越性。

• 最后，缺少消息传递更新策略(-MP) 会导致性能下降。这表明，随着模型通过训练进行迭代，静态注意力样本可能会变得过时或不完整。消息传递更新的动态性质确保注意力样本保持相关性并反映不断发展的用户-项目交互。这种动态更新对于保持推荐的准确性和相关性至关重要，因为它允许 TransGNN 适应用户偏好和项目属性的变化。

4.4 Attention Sampling Study (RQ3)

我们以 Yelp 为例研究注意力采样大小的影响。结果如图 3 所示。我们有以下观察结果：

图 3：不同采样大小的影响以及不同图形比例的最佳采样大小。

• 在图3(a) 中，当k 从5 变化到35 时，出现清晰的模式。采样较少的节点，虽然计算要求较低，但会导致性能明显下降。这可以归因于以下事实：采样的节点太少，模型可能会错过准确推荐所需的关键信息。用户-项目图中的基本联系可能会被忽视，从而导致对用户偏好和项目特征的理解不够稳健。另一方面，采样过多的节点并不会带来性能的成比例改进。尽管采样增加，但性能增益的稳定状态可能与遇到饱和点的模型有关。超过一定阈值，额外的节点不会贡献新的或相关的信息；相反，它们增加了计算负担，却没有增强模型做出准确预测的能力。

• 在图3(b) 中，我们更改图表比例并显示最佳采样大小。有趣的是，我们发现相对较小的样本量足以实现良好的性能。这一发现意义重大，因为它表明 TransGNN 可以高效运行，而不需要大量的计算资源。从较小的节点子集中提取有意义的见解的能力强调了从用户-项目交互图中识别最相关信息的有效性。

此外，当图表的比例变化时，可以观察到，随着图表尺寸的扩大，仅需要少量增加样本数量。这是一个特别重要的观察结果，因为它表明了 TransGNN 的可扩展性。即使图的复杂性增加，模型也不需要相应大幅增加资源来维持其性能。这种可扩展性对于数据集大小可能很大且多种多样的实际应用至关重要

4.5 Study on the number of GNN Layers (RQ4)

我们的研究重点是评估 GNN 层数变化所带来的性能影响，如表 4 所示。在此分析中，SHT 的性能在两层配置下表现出改进，但在包含附加层时表现出下降，表明在更深的网络架构中出现了过度平滑现象。相比之下，TransGNN 通过不断增加的层数显示增强的性能指标，表明其在减轻过度平滑效应和捕获整个图结构中的广泛依赖关系方面的功效。这种观察到的差异凸显了 TransGNN 在驾驭更深层次图网络固有的复杂性方面的先进能力，从而将其确立为推荐系统的强大解决方案。

4.6 Complexity and Efficiency Analysis (RQ5)

我们对 TransGNN 的执行效率进行了分析，如表 5 所示。与基于 GNN（即 NGCF）、Hypergraphbased（即 HyRec）和基于 Transformer-GNN 的基线（即 SHT）相比，我们有以下观察结果：

• TransGNN 的 GPU 内存成本相对较少。这种效率源于模型 Transformer 组件的节点采样策略，它避免了整个图上注意力计算的需要。通过仅针对最相关的节点，TransGNN 显着减少了通常与处理大型图相关的计算负载。这种方法不仅节省内存，而且使模型更加灵活，能够适应不同的数据集大小和复杂性。

• 与 NGCF 相比，TransGNN 在训练（减少 30% - 40% 时间）和推理（减少 30% - 40% 时间）方面都具有更高的效率。训练和推理阶段节省的时间使 TransGNN 成为速度要求较高的场景的可行选择本质上，例如实时推荐系统或模型更新频繁的应用程序。

此外，相对于 DHCF 和 SHT，TransGNN 的训练和推理时间即使不是更优，也可媲美，同时保持更小的内存占用。在计算资源有限的情况下，速度和资源利用率之间的平衡至关重要。较低的内存需求（量化为比其他模型少 20% 至 30%）强调了 TransGNN 适合在计算资源受限的环境中部署。

此外，与所有基线相比，TransGNN 的最小浮点运算 (FLOP) 证明了其计算效率。这对于在资源匮乏的设备上进行部署尤其重要，因为管理计算开销至关重要。较低的 FLOP 表明 TransGNN 需要更少的计算资源来执行与其对应的相同任务，这在资源受限的环境中是一个显着的优势。

4.7 Visualization (RQ6)

我们通过 t-SNE [36] 可视化不同候选下次点击项目的用户交互序列嵌入。我们在 Yelp 上对 8 个不同的目标项进行可视化，每个目标项有超过 1000 个查询序列对。结果如图 4 所示。从结果中，我们可以发现基于 GNN 的基线产生的表示的聚类属性不如我们的。这种差异可以归因于 GNN 的某些固有局限性。首先，GNN 往往严重依赖图中的边。虽然这通常是有效的，但它也可能是一个缺点，特别是当图形包含噪声或不相关的边缘时。这些边缘可能会无意中将相关性较低的信息引入节点嵌入，从而导致可视化中的聚类不太明显。此外，我们还发现，与 SHT 相比，TransGNN 可以更好地聚类相关节点，因为 TransGNN 利用了 Transformer 层和 GNN 层，使其能够将其感受野扩展到直接邻居之外。这一扩展的领域使 TransGNN 能够捕捉更广泛的背景，包括本地和更遥远但相关的交互。

5 CONCLUSION

在本文中，我们提出 TransGNN 来帮助 GNN 以较低的开销扩展其感受野。我们首先使用三种位置编码来捕获变压器的结构信息在本文中，我们提出 TransGNN 来帮助 GNN 以较低的开销扩展其感受野。我们首先使用三种位置编码来捕获变压器的结构信息。然后交替使用Transformer层和GNN层，使每个节点聚焦于最相关的样本。针对中大规模图提出了两种有效的样本更新策略。对五个数据集的实验显示了 TransGNN 与最先进的基线相比的有效性。

流浪的诗人，

关注

32
点赞
踩
29

收藏

觉得还不错? 一键收藏
2
评论
TransGNN: Harnessing the Collaborative Power of Transformersand Graph Neural Networks for Recommend

图神经网络 (GNN) 通过对用户-项目交互图进行建模，已成为协作过滤 (CF) 的有前途的解决方案。现有基于 GNN 的推荐系统的核心涉及沿着用户-项目交互边缘传递递归消息以细化编码嵌入。尽管它们已被证明是有效的，但当前基于 GNN 的方法遇到了有限感受野和存在噪声“兴趣无关”连接的挑战。相比之下，基于 Transformer 的方法在自适应和全局地聚合信息方面表现出色。然而，它们在大规模交互图上的应用受到固有的复杂性和捕获复杂、纠缠结构信息的挑战的阻碍。
复制链接

扫一扫