Self-Supervised Multi-Channel Hypergraph Convolutional Network for Social Recommendation

ZZZ___bj

已于 2022-04-27 10:29:04 修改

阅读量6.6k

点赞数 11

分类专栏：智能推荐论文文章标签：推荐系统深度学习

于 2021-05-16 10:27:17 首次发布

本文链接：https://blog.csdn.net/ZZZ___bj/article/details/116498732

版权

论文同时被 2 个专栏收录

40 篇文章

订阅专栏

智能推荐

17 篇文章

订阅专栏

摘要：
在推荐系统中，当用户-物品交互数据比较稀疏时，通常使用社交关系来提高推荐质量。大多数现有的社交推荐模型利用成对关系来挖掘潜在的用户偏好。然而，现实生活中用户之间的互动非常复杂，用户关系可能是高阶的。超图提供了一种自然的方法来建模复杂的高阶关系，而它在改善社会推荐方面的潜力还有待开发。在本文中，我们填补了这一空白，提出了一个多通道超图卷积网络，利用高阶用户关系来增强社交推荐。从技术上讲，网络中的每个通道都通过超图卷积来编码一个超图，该超图描绘了一个常见的高阶用户关系模式。通过聚合多个通道学习到的嵌入信息，我们得到全面的用户表示，从而生成推荐结果。然而，聚合操作也可能掩盖不同类型的高阶连接信息的固有特征。为了弥补聚合损失，我们创新地将自监督学习融入超图卷积网络的训练中，以获得层次互信息最大化的连通性信息。在多个真实数据集上的实验结果表明，所提出的模型优于SOTA方法，消融研究验证了多通道设置和自监督任务的有效性。我们的模型的实现可以通过https://github.com/Coder-Yu/RecQ获得。
介绍：
在过去的十年里，社交媒体的繁荣极大地改变了人们的思维和行为方式。据揭示，人们可能会改变自己的态度和行为，以回应他们认为他们的朋友可能会做或想，这就是众所周知的社会影响。与此同时，也有研究表明，人们倾向于与与自己有相似偏好的人建立联系，这被称为同质性。基于这些发现，社交关系通常被集成到推荐系统中，以缓解数据稀疏问题。一般来说，在社交推荐系统中，如果用户与物品的互动很少，系统就会依赖其好友的互动来推断用户的偏好，并生成更好的推荐。在这种范例上，大量的社会推荐模型已经被开发出来，并比一般的推荐模型表现出更强的性能。近年来，图神经网络(GNNs)在广泛的领域取得了巨大的成功。由于其对关系数据建模的强大能力，基于GNNs的模型在社会推荐方面也表现出了显著的表现。然而，这些基于GNNs的社会推荐模型的一个关键限制是，它们只利用简单的成对用户关系，而忽略了用户之间普遍存在的高阶关系。虽然长期依赖的关系（比如：友谊的传递性），也被认为是高阶的，这些关系它们可以通过使用k层图神经来整合k-hop（k跳）社交邻居的特征来捕获到，然而除了成对关系，这些基于GNNs的模型不能形成和捕获复杂的高阶用户关系模式(如图1所示)。例如，人们很自然地认为，两个有社交关系且购买了同一件商品的用户之间的关系比那些只有社交关系的用户之间的关系更强，而前者中常见的购买信息在之前的社交推荐模型中往往被忽略。
在这里插入图片描述

超图，它推广了边的概念，使其连接到两个以上的节点，为建模用户之间复杂的高阶关系提供了一种自然的方法。尽管超图在用户建模方面比简单图有很大的优势，但是在社交推荐方面，超图的优势还没有得到充分的开发。本文通过研究超图建模和图卷积网络的融合潜力，填补了这一空缺，提出了一种多通道超图卷积网络(MHCN)，通过利用高阶用户关系来增强社交推荐。从技术上讲，我们通过统一形成特定三角形关系的节点来构造超图，这些三角关系是一组精心设计的具有底层语义的三角主题的实例(如图2所示)。
在这里插入图片描述
图2:三角图案在我们的工作中使用。绿色圆圈表示用户，黄色圆圈表示物品。

我们定义了多种类型的图，这些图具体化了不同类型的高阶关系，如“拥有共同的朋友”，“朋友购买相同的物品”，以及在社交推荐系统中“陌生人购买相同的物品”。提出的超图卷积网络的每个通道都承担编码不同图的超图的任务。通过对多通道学习到的多个用户嵌入信息进行聚合，可以得到包含多种类型高阶关系信息的全面用户表示，利用项目嵌入产生更好的推荐结果。

然而，尽管多通道设置有好处，但聚合操作也可能掩盖不同类型的高阶连接信息的固有特征，因为不同的通道会学习不同超图上分布的嵌入。为了解决这一问题，并充分继承超图中丰富的信息，我们创新性地在多通道超图卷积网络的训练中集成了一个自监督任务。与现有的研究不同，我们提出通过利用超图结构来构造自我监督信号，全面用户表示应该反映不同超图中用户节点的局部和全局高阶连接模式。具体来说，我们利用了超图结构中的层次结构，并分层最大化了用户表示、以用户为中心的子超图和全局超图之间的互信息。互信息度量了子超图和整个超图的结构信息量，通过减少局部和全局结构不确定性来推断用户特征。最后，在主&辅学习框架下，将推荐任务和自我监督任务统一起来。通过联合优化这两个任务并利用所有组件的相互作用，推荐任务的性能获得了显著提高。

本文的主要贡献总结如下：

我们研究了通过利用多通道设置下的多种高阶用户关系，在社交推荐中融合超图建模和图神经网络。
我们创新性地将自我监督学习融入到超图卷积网络的训练中，证明了一种自监督辅助任务可以显著改善社会推荐任务。
我们在多个真实数据集上进行了广泛的实验，以证明所提出的模型的优越性，并通过消融研究彻底地消融模型来调查每个组件的有效性。

本文的其余部分组织如下。第二部分介绍了相关工作。第3节详细介绍了多通道超图卷积网络，并详细介绍了自监督学习如何进一步提高性能。第四节给出了实验结果和分析。最后，第五部分对本文进行了总结。

2. 相关工作
2.1 社交推荐

正如社会科学理论所指出的，用户的偏好和决策往往受到朋友的影响。基于这一事实，将社会关系集成到推荐系统中，以缓解数据稀疏问题。早期对社会化推荐系统的探索主要集中在矩阵分解(MF)，它具有良好的高斯先验概率解释，是社会化推荐系统中最常用的技术。MF的广泛应用标志着推荐系统的研究进入了一个新的阶段。许多研究将MF作为其利用社交关系的基本模型，因为MF能够灵活的使用历史数据。基于MF的社交推荐算法的一般思想可以分为三大类:共分解方法、集成方法、正则化方法。此外，也有研究使用社会感知的MF建模兴趣点，偏好进化，项目排名，关系生成。

近年来，深度学习的蓬勃发展拓宽了探索社交推荐的方式。许多研究表明，深度神经模型更有能力捕捉高水平的潜在偏好。具体来说，图神经网络(GNNs)凭借其对图数据建模的强大能力，在这方面取得了巨大的成功。GraphRec是第一个将GNNs引入社交推荐的，它将用户-项目和用户-用户交互建模为图形数据。DiffNet及其扩展DiffNet++模型采用分层传播结构对社会推荐中的递归动态社会扩散进行建模。Wu等人提出了一种双图注意网络来合作学习双重社会效应的表示。Song等人开发了DGRec来模拟用户基于会话的兴趣和动态的社会影响。Yu等人提出了一种基于GCNs的深度对抗性框架来解决社会推荐中常见的问题。总的来说，这些工作的普遍思想是将用户-用户和用户-物品的交互建模为具有成对连接的简单图，然后使用多个图神经层来捕获节点依赖关系。

2.2 推荐系统中的超图
超图为复杂高阶关系建模提供了一种自然的方法，已被广泛应用于解决各种问题。随着深度学习的发展，一些研究结合了GNNs和超图来增强表示学习。HGNN是第一个设计超边缘卷积操作来从光谱角度处理表示学习中的复杂数据相关性的工作。Bai等人，将超图注意力引入超图卷积网络，以提高其能力。然而，尽管超图在建模复杂数据方面有很大的能力，但它在改进推荐系统方面的潜力却很少被探索。目前仅有几项研究将这两个课题结合起来。Bu等将超图学习引入音乐推荐系统，这是最早的尝试。最新的是HyperRec和DHCF，它们分别利用超图神经网络的优势来建模用户对下一个商品推荐的短期偏好，以及用户和商品之间的高阶相关性，以用于一般协同过滤。对于在社交推荐中的应用，HMF使用超图拓扑来描述和分析推荐系统中社会网络的内部关系，但由于HMF是一种混合推荐模型，因此它并没有充分利用高阶社交关系。LBSN2Vec是一个具有社会意识的POI推荐模型，它通过随机漫步联合抽样友谊关系来构建超边，但它侧重于连接不同类型的实体，而不是利用高阶社交网络结构。

2.3 自监督学习
自我监督学习是一种新兴的范例，它使用从原始数据中获得的真实样本进行学习。首先将其应用于图像域，通过旋转、裁剪和着色图像来创建辅助监督信号。这一领域的最新进展是将自监督学习扩展到图表示学习。这些研究主要是从研究图结构的角度形成自我监督任务。节点属性如度、接近度、属性等被视为局部结构信息，经常被用作真实数据来充分利用未标记数据。例如，InfoMotif利用互信息最大化对图结构中的属性相关性进行建模，以正则化图神经网络。同时，还利用节点对的距离等全局结构信息来促进表示学习。此外，对比具有互信息最大化的图的一致视图和不一致视图是另一种建立自我监督任务的方法，该方法也取得了良好的效果。

由于自监督学习的研究还处于起步阶段，目前将其与推荐系统相结合的研究还不多。这些努力要么从未来/现在的序列数据中挖掘自我监督信号，要么从物品/用户的掩码属性中学习原始数据的相关性。然而，在时间因素和属性都不具备的情况下，这些想法很难被应用到社交推荐中。与我们最相关的工作是GroupIM，它最大化了群体和群体成员表示之间的互信息，以克服群体交互的稀疏性问题。由于群体可以看作是一个特殊的社交小圈子，这项工作可以证实社会自我监督信号的有效性。

3 提出的模型
3.1 准备工作
Let 𝑈 = {𝑢1, 𝑢2, …, 𝑢𝑚} 代表用户集合 (|𝑈 | = 𝑚), and 𝐼 = {𝑖1,𝑖2, …,𝑖𝑛} 代表项目集合 (|𝐼 | = 𝑛)。I (𝑢)是项目被用户u所消费的集合，R∈Rm×n是二进制矩阵，存储了用户-项目的交互。对于每对的 (𝑢,𝑖), $r_{ui}$ =1代表着用户u交互了项目i，相反 $r_{ui}$ =0代表着项目i未被用户u交互，或者用户u对项目i不感兴趣。在本文中，我们重点关注top-K推荐，而 $\hat{r}_{ui}$ 表示项目𝑖被推荐给用户的概率。至于社交关系，我们使用𝑺∈ $R^{m×m}$ 来表示非对称的关系矩阵，因为我们的社交网络是有向的。在模型中，我们有多个卷积层，用{𝑷 (1), 𝑷 (2), · · · , 𝑷 (𝑙)} ∈ $R^{m×d}$ 和{𝑸(1), 𝑸(2), · · · , 𝑸(𝑙)} ∈ $R^{n×d}$ 分别表示在每一层中学习到的大小为d维的用户和项目的嵌入。本文用粗体大写字母表示矩阵，用粗体小写字母表示向量。

定义1：
设𝐺=（𝑉，𝐸）表示超图，其中𝑉是包含𝑁个顶点的顶点集，𝐸是包含𝑀个超边的边集。每个超边𝜖∈𝐸都可以包含任意数量的顶点，并被分配了一个正向的权重𝑊𝜖𝜖。所有的权重都形成了一个对角矩阵𝑾∈ $R^{M×M}$ 。超图可以用入射矩阵𝑯∈ $R^{N×M}$ 来表示，其中，如果超边𝜖∈𝐸包含一个顶点 $v_i$ ∈V，则为𝐻𝑖𝜖𝑯∈R𝑁×𝑀1，否则为0。顶点和边的度矩阵分别是由𝑫和𝑳表示的对角矩阵，其中在这里插入图片描述
需要注意的是，在本文中，𝑊𝜖𝜖是统一分配的1，因此𝑾是一个唯一矩阵。

3.2 面向社会推荐的多通道超图卷积网络

在本节中，我们介绍我们的模型MHCN，它代表多通道超图卷积网络。图3给出了我们模型的原理图。

在这里插入图片描述
图3：提出模型的概述（1层）。左图中的每个三角形都是一个超边，也是一个已定义图的实例。𝐺𝑠, 𝐺𝑗 and 𝐺𝑝分别表示基于社交图、联合图和购买图构建的三个图诱导超图。三个虚线椭圆号中的𝑠𝑠、𝑠𝑗和𝑠𝑝，表示以𝑢2为中心的三个自我网络。它们分别是𝐺𝑠、𝐺𝑗和𝐺𝑝的子图。

3.2.1 超图构建
为了表示用户之间的高阶信息，我们首先在社交推荐系统中对齐社交网络和用户-项目交互图，然后在这个异构网络上构建超图。不像之前的模型一样来构建超图，它们是通过统一给定实体的类型来构建超图，而我们的模型根据图的结构来构建超图。由于社交网络中的关系往往是有向的，因此社交网络的连接可以是不同类型的。在本文中，我们使用一组精心设计的主题来描述社会网络中常见的三角结构类型，从而指导超图的构建。

首先引入Motif作为涉及多个节点的特定局部结构。它已被广泛用于描述各种网络中的复杂结构。在本文中，我们只关注三角形的图，因为三元组在社交网络中无处不在，但我们的模型可以无缝扩展，以处理更复杂的图。图2显示了所有使用的三角图案。研究表明，M1−M7对社交计算至关重要，同时我们进一步设计了M8−M10以融入用户-物品交互来进行补充。已知图M1 ~ M10，我们根据其隐含的语义将其分为三组。M1−M7概括了显性社交网络中所有可能的三角关系，并描述了高阶社交连接，比如“有一个共同的朋友”，我们称之为“社交图”。M8~M9表示联合关系，即“朋友购买同一件物品”。这种类型的关系可以看作是加强联系的信号，我们将M8 ~ M9命名为“联合图”。最后，我们还应该考虑那些没有显性社交关系的用户。因此，M10是非封闭的，它定义了没有社交关系但购买了相同物品的用户之间的隐性高阶社会关系。我们将M10命名为“购买图”。在这三种模态的约束下，我们可以构造出包含不同高阶用户关系模式的三个超图。我们分别使用矩阵𝑯𝑠、𝑯𝑗和𝑯𝑝来表示这三个图诱导的超图，其中这些矩阵的每一列都表示一个超边。例如，在图中，{𝑢1，𝑢2，𝑢3}是M4的一个实例，我们使用𝑒1来表示这个超边。然后，根据定义1，我们有 $H_{u1,e1}^s$ = $H_{u2,e1}^s$ = $H_{u3,e1}^s$ =1。

3.2.2多通道超图卷积
在本文中，我们使用了三种通道设置，包括“社交通道(s)”、“联合通道(j)”和“购买通道§”，以应对三种类型的三角形主题，但通道的数量可以调整，以适应更复杂的情况。每个通道负责编码一种高阶用户关系模式。因为不同的模式可能会对最终的推荐性能表现出不同的重要性，所以直接将整个基本的用户嵌入 $p^{(0)}$ 提供给所有通道是不明智的。为了控制从基本的用户嵌入 $p^{(0)}$ 到每个通道的信息流，我们设计了一个具有自门控单元(SGU)的预过滤器，其定义为：

在这里插入图片描述
其中， $w_g^c$ ∈ $R^{d*d}$ 、 $b_g^c$ ∈ $R^d$ 是要学习的参数，𝑐∈{𝑠，𝑗，𝑝}表示通道,⊙表示点乘，𝜎是sigmoid非线性激活。有效地作为乘法跳过式连接[8]，它学习非线性门，通过维度重新加权，以特征调整基本用户嵌入，然后获得特定于通道的用户嵌入 $p_c^{(0)}$ 。

针对摘要[10]中提出的谱超图卷积，我们将超图卷积定义为:
在这里插入图片描述
不同的是，我们按照摘要建议，去掉了线性变换的可学习矩阵和非线性激活函数ReLU，通过用𝑯𝑠、𝑯𝑗和𝑯𝑝替换𝑯𝑐，我们可以利用超图卷积网络的优势来学习在相应通道中编码的高阶信息的用户表示。𝑫𝑐 and 𝑳𝑐 是只重新调整嵌入大小的对角矩阵，我们在下面的讨论中跳过它们。超图卷积可以看作是对超图结构进行“节点-超边-节点”特征变换的两阶段精化。乘法运算 $H_c^T$ $P_c^{(l)}$ 定义从节点传递到超边的消息,然后再乘 $H_c$ 的是从超边到节点聚合信息。然而，尽管超图卷积有很多好处，但仍存在大量由图诱导的超边（例如，在使用的数据集LastFM中有19,385个社交三角形），这会导致构建矩阵 $H_c$ 的高成本。但是，由于我们只利用三角形的主题，我们表明，这个问题可以通过利用矩阵乘法的结合性质以一种灵活和有效的方式解决。

我们让𝑩=s⊙ $s^T$ 和𝑼=𝑺 - B分别是双向和单向社交网络的邻接矩阵。我们用 $A_{M_k}$ 去表示图诱导的邻接矩阵， $A_{M_k})_{i,j}$ =1是指顶点𝑖和顶点𝑗出现在 $M_k$ 的一个实例中。因为两个顶点可以出现在 $M_k$ 的多个实例中， $A_{M_k})_{i,j}$ 计算公式：
在这里插入图片描述
表1显示了如何以矩阵乘法的形式计算 $A_{M_k}$

由于表1中所有涉及的矩阵都是稀疏矩阵，因此可以有效地计算出 $A_{M_k}$ 。具体地说，表1中的基本单元是𝑿𝒀⊙𝒁的一般形式，这意味着 $A_{M_1}$ 到 $A_{M_9}$ 可能比𝒁(𝑩或𝑼)更稀疏，或者是和Z一样稀疏。 $A_{M_10}$ 可能有点稠密，但我们可以在计算 $A_{M_10}$ 时，过滤掉流行项目（我们认为消费流行项目可能不会反映用户的个性化偏好），删除低于阈值的记录时，(比如5)，从而在 $A_{M_10}$ 中保持有效的计算。对于对称图， $A_M$ =𝑪，以及对于非对称图， $A_M$ =𝑪 + $c^T$ 。在不考虑自连接的情况下， $A_{M_1}$ 到 $A_{M_7}$ 的总和等于 $H^sH^{sT}$ ∈R𝑚×𝑚，因为 $H^sH^{sT}$ 表示这个节点对参与了多少个社交三角形的表示。类似地，在不考虑自连接的情况下， $A_{M_8}$ 到 $A_{M_9}$ 的求和等于 $H^jH^{jT}$ ， $A_{M_8}$ 等于 $H^pH^{pT}$ 。以 $A_{M_1}$ 的计算为例，𝑼𝑼显然构造了一个连接三个顶点的单向路径，而⊙U操作使该路径成为一个闭环，这是 $A_{M_1}$ 的一个实例。因为 $A_{M_10}$ 也包含了 $A_{M_8}$ 和 $A_{M_9}$ 中的三角形。所以，我们从 $A_{M_10}$ 中删除了冗余。最后，在这里插入图片描述

然后我们有一个变换后的超图卷积，定义为:
在这里插入图片描述
其中，^𝑫𝑐∈R𝑚×𝑚是 $A_c$ 的度矩阵。显然，公式(2)等价于公式(4)，是超图卷积的简化替换。由于我们遵循LightGCN的设计，其中已经包含了自连接的效果，因此在邻接矩阵中跳过自连接并不影响。这样，绕开了单个超边的构造和计算，大大降低了计算代价。

3.2.3学习全面的用户表示
在通过𝐿层传播用户嵌入后，我们平均每一层获得的嵌入，以形成最终的特定于通道的用户表示:
在这里插入图片描述
为了避免过度平滑问题，然后我们利用注意力机制对不同通道的用户嵌入信息进行选择性聚合，形成全面的用户嵌入。对于每个用户𝑢，我们学习了一个三元组（𝛼𝑠、𝛼𝑗、𝛼𝑝）来测量三个特定于通道的嵌入对最终推荐性能的不同贡献。注意力函数 $f_{att}$ 的定义为：
在这里插入图片描述
𝒂∈ $R^d$ 和𝑾𝑎𝑡𝑡∈ $R^{d×d}$ 都是可训练的参数，以及全面的用户表示:

需要注意的是，由于显性的社交关系是嘈杂的，孤立的关系并不是亲密友谊的强烈信号，我们丢弃了那些不属于以上定义的图的实例。因此，我们不能直接对显式社交网络𝑺做卷积操作。此外，我们在用户-物品交互图上进行简单的图卷积，对购买信息进行编码，并补充多通道超图卷积。简单图卷积定义为:
在这里插入图片描述
其中 $p_r^{(l)}$ 是简单图卷积的门控用户嵌入， $p_m^{(l)}$ 是用户嵌入和 $p_r^{(l)}$ 的组合， $D_u$ ∈ $R^{m×m}$ 和 $D_i$ ∈ $R^{n×n}$ 分别是R和 $R^T$ 的度矩阵。最后，我们得到了最终的用户和项目嵌入𝑷和𝑸，定义为：
在这里插入图片描述
其中， $P^{(0)}$ 和 $Q^{(0)}$ 都被随机初始化。

3.2.3模型优化

为了学习MHCN的参数，我们使用了贝叶斯个性化排序(BPR)损失，这是一个成对的损失，它使得了一个监测到的条目比未观察到的条目更高:
在这里插入图片描述
其中Φ表示MHCN的参数，^ $r^{u,i}$ = $p_u^Tq_i$ 是u对i的预测分数，𝜎（·）是sigmoid函数。每次一个三元组都被输入到MHCN，这个三元组包括当前用户𝑢、被𝑢购买的正项𝑖和随机抽取的负项目𝑗 ，负项目𝑗是用户𝑢不喜欢的或𝑢未知的项目。该模型经过优化，在𝑢的推荐列表中排名𝑖高于𝑗。此外，还采用了具有超参数𝜆的𝐿2正则化方法来减少广义误差。

3.3 通过自监督的学习来增强MHCN
由于利用了高阶关系，MHCN表现出了很好的性能(见表3和表4)，然而，MHCN的一个缺点是聚合操作(公式 5和6)可能会导致高阶信息的丢失，因为不同的通道会在不同的超图上学习不同分布的嵌入。不同通道的嵌入可以采用连接的方式，但这样做的话，就认为不同类型高阶信息对推荐生成的贡献是一样的，这与实际情况不相符，导致我们的实验表现不佳。为了解决这个问题，并充分继承超图中丰富的信息，我们创新地将自监督学习融入到MHCN的训练中。

在表示学习中，自监督任务通常作为训练前的策略，或者作为改善主要任务的辅助任务。在本文中，我们遵循主、辅范例，设置一个自监督的辅助任务来增强推荐任务(主任务)。Deep Graph Infomax (DGI)是一种通用和流行的方法，用于以自我监督的方式学习图结构数据中的节点表示。它依赖于去最大化节点表示和相应的图的高级摘要之间的互信息。然而，我们认为图节点互信息最大化停留在一个粗糙的级别，并不能保证DGI中的编码器能够从输入数据中提取足够的信息。因此，随着图规模的增加，互信息最大化带来的效果可能会减少。为了更好地适应我们的场景，我们继承了DGI考虑互信息的优点，并利用超图中的层次结构将图节点互信息最大化扩展到精确的级别。

回想一下，对于MHCN的每个通道，我们建立邻接矩阵𝑨𝑐，以捕获高阶连接信息。𝑨𝑐中的每一行都表示以行索引表示的用户为中心的相应超图的子图，然后我们可以引出一个层次结构：“用户节点←以用户为中心的子超图←超图”，并从该结构创建自监督信号。

我们对自我监督任务的目标是，全面的用户表示应该反映用户节点在不同超图中的局部和全局的高阶连接模式，可以通过分层最大化用户表示、以用户为中心的子超图和每个通道中的超图之间的互信息来实现这一目标。互信息测量子图和整个超图的结构信息量，以通过降低局部和全局结构的不确定性来推断用户偏好。为了获得子超图的表示，而不是平均用户在子超图中的嵌入，我们设计了一个函数𝑓out1： $R^{k×d}$ → $R^d$ ，它的序列是不变的，并表述为：
在这里插入图片描述
其中，𝑷𝑐= $f_{gate}^c$ (𝑷)是控制𝑷的参与大小，以避免过拟合和减轻主任务和辅助任务之间的梯度冲突， $a_u^c$ 是与中心用户𝑢对应的𝑨𝑐的行向量，𝑠𝑢𝑚( $a_u^c$ ）表示子超图中有多少个连接。这样，就考虑了子超图中每个用户的权重，形成子超图嵌入 $z_u$ 。类似地，我们定义了另一个函数𝑓out2： $R^{m×d}$ → $R^d$ 这实际上是一个平均池化，将获得的子超图嵌入到一个图级表示中:
在这里插入图片描述
我们遵循DGI，使用InfoNCE作为我们的学习目标，以最大化层次互信息。但我们发现，与二元交叉熵损失相比，成对排序损失(在互信息估计中也被证明是有效的)更适合推荐任务。因此定义自监督任务的目标函数如下:
在这里插入图片描述
𝑓𝐷（·）： $R^{d}$ * $R^d$ →R是一种鉴别器函数，它以两个向量作为输入，然后对它们之间的一致性进行评分。我们简单地将鉴别器实现为两个表示之间的点积。由于在𝑷𝑐和𝒁𝑐之间有一个双射映射，它们可以相互推出彼此。我们打乱𝒁𝒄，通过行顺序和列顺序的打乱来创建负面的例子˜𝒁𝑐。我们认为，用户应该与以它为中心的子超图(局部结构)有更强的联系，所以我们直接最大化了他们的表示之间的互信息。相比之下，用户不会太关心其他所有用户(全局结构)，因此我们以子超图为中介，间接地最大化了用户表示与完全超图之间的互信息。与仅最大化节点与图表示之间互信息的DGI相比，我们的分层设计可以将更多超图的结构信息保留到用户表示中(对比见4.3节)。图4说明了分层互信息最大化。
在这里插入图片描述
最后，我们将推荐任务的目标(主要的)和最大化层次互信息的任务(辅助的)统一起来进行联合学习。总体目标定义为:

其中，𝛽是一个用于控制辅助任务效果的超参数，而L𝑠可以看作是一个正则化器，利用超图的层次结构信息来丰富推荐任务中的用户表示，以获得更好的性能。

3.4 复杂度分析
在本节中，我们将讨论我们的模型的复杂性。

模型大小：我们的模型的可训练参数由三个部分组成：用户和项目嵌入、门参数和注意参数。对于第一个阶段，我们只需要学习0𝑡ℎ层用户嵌入𝑷(0)∈ $R^{m×d}$ 和项目嵌入𝑸(0)∈ $R^{n×d}$ 。至于第二个阶段，我们使用了7个门，4个用于MHCN, 3个用于自监督任务。每个门都有（𝑑+1）×𝑑个参数，注意力参数的也是相同的大小。综上所述，模型大小总计接近(m+n+8d)d。由于min（𝑚，𝑛）≫𝑑，我们的模型是相当小的。

时间复杂度：计算成本主要来自于超图/图卷积、注意力、门控和互信息最大化四个部分。对于通过𝐿层的多通道超图卷积，传播消耗小于O(| $A^+$ |𝑑𝐿)，其中| $A^+$ |表示𝑨中非零元素的数量，| $A^+$ |=max(| $A^+_s$ |,| $A^+_j$ |,| $A^+_p$ |)。类似地，图卷积的时间复杂度是O(| $R^+$ |𝑑𝐿)。至于注意力和自门控机制，它们都贡献了O（𝑚 $d^2$ ）的时间复杂度。互信息最大化的代价主要来自𝑓𝑜𝑢𝑡1，即O(| $A$ |𝑑)。由于我们遵循LightGCN中的设置去除可学习矩阵进行线性变换和非线性激活函数，因此我们的模型的时间复杂度远远低于以往基于GNNS的社会推荐模型。

4. 实验和结果

在本节中，我们进行了广泛的实验来验证我们的模型。实验通过回答以下三个问题展开:(1)MHCN是否优于最先进的基线?(2) MHCN中的每个成分都有贡献吗?(3)超参数（𝛽和MHCN的深度）如何影响MHCN的性能？

4.1 实验协议

数据集：我们的实验使用了三个真实数据集:LastFM1、Douban2和Yelp。由于我们的目标是生成Top-K推荐，对于基于显式评分的豆瓣，我们将小于4的评分去掉，将其他的评分设置为1。数据集统计数据如表2所示。我们对三个数据集进行5次交叉验证，并报告平均结果。

在这里插入图片描述
基线：我们比较了MHCN与一组强大的和常用的基线，包括基于MF和基于GNN的模型。

BPR是一种流行的基于贝叶斯个性化排名的推荐模型。它通过成对损失排序来模拟候选项的顺序。
SBPR是一种基于MF的社交推荐模型，它扩展了BPR，并使用社交联系来建模候选项的相对顺序。
LightGCN是一个基于GCN的一般推荐模型，它利用用户-项目的接近性来学习节点表示并生成推荐，这被认为是最先进的方法。
GraphRec是第一个基于GNN的社交推荐模型，它同时建模了用户-项目和用户-用户的交互。
**DiffNet++**是最新的基于GCN的社交推荐方法，它建模了用户和项目空间的递归动态社交扩散。
DHCF是一种最新的基于超图卷积网络的方法，对用户和项目之间的高阶相关性进行建模，用于一般推荐。

实验研究了两种版本的多通道超图卷积网络。MHCN表示普通的版本， $s^2$ -MHCN表示自我监督的版本。

指标
为了评估所有方法的性能，我们使用了两个基于相关性的指标Precision@10和Recall@10，以及一个基于排名的指标NDCG@10。我们对所有的候选项目进行项目排序，而不是对抽样的项目集来计算这三个指标，这保证了评估过程是公平的。

设置
为了比较公平，我们参考基线原始文献中报道的最佳参数设置，然后使用网格搜索对基线的所有超参数进行微调，以确保基线的最佳性能。对于所有模型的统一设置，将潜在因素嵌入的维数设置为50，正则化系数𝜆 = 0.001，批量大小设置为2000。我们使用Adam（优化器）来优化所有这些模型。第4.4节报告了不同参数的影响。我们在第4.2节和第4.3节中使用了最佳参数设置。

4.2 推荐性能
在这一部分，我们验证MHCN是否优于现有的社交推荐基线。因为社交推荐的主要目标是缓解数据稀疏性问题，提高冷启动用户的推荐性能。因此，我们分别在完整测试集和冷启动测试集上进行实验，冷启动只包含交互次数小于20次的冷启动用户。实验结果见表3、表4。性能提升率的计算方法是用 $s^2$ -MHCN中减去基线的最佳性能值，然后使用差值来除以前者。类似地，通过比较MHCN和 $s^2$ -MHCN的性能值来计算 $s^2$ 提升率。根据研究结果，我们可以得出以下结论：
在这里插入图片描述

MHCN在一般推荐任务和冷启动推荐任务中都表现出了良好的性能。即使没有自监督学习，它也以相当大的优势超过了所有的基准。同时，自监督学习也进一步提高MHCN的性能。与普通版本相比，自我监督版本在所有情况下都显示出了不错的改进。尤其，在冷启动的推荐任务中，自我监督学习有显著的提升。与MHCN相比， $s^2$ -MHCN在一般推荐任务上平均提高了约5.389%，在冷启动推荐任务上提高了9.442%。由此看来，数据集越稀疏，自监督学习带来的改进也越大。
基于GNN的推荐模型显著优于基于MF的推荐模型。即使是基于GNNs的一般推荐模型也比基于MF的社交推荐模型表现出更好的性能。然而，与基于相同构建模块的推荐模型(即基于MF和基于MF，基于GNNs和基于GNNs)相比，社会推荐模型仍然具有竞争力，总体上优于除LightGCN之外的相应的一般推荐模型。当MF-based vs. MF-based, GNNs-based vs. GNNs-based时，社交推荐模型仍然具有竞争力，除了LightGCN之外，总体上优于相应的一般推荐模型。
LightGCN是一个非常强的基线。在不考虑MHCN的两种变体的情况下，LightGCN在大多数情况下表现出最好或第二好的表现。这可以**归功于去除多余的操作，多余的操作包括非线性激活函数和变换矩阵。**其他基线，比如GraphRec，可能会受到这些无用操作的限制，并且不能超过LightGCN，尽管它包含了社交信息。
虽然DHCF也是基于超图卷积的，但它并没有在所有情况下显示出任何能力。我们无法再现它在原文中所报道的优越性。有可能导致其失败的两个可能的原因。首先，它只利用了用户项的高阶关系。其次，该模型中超边的构造方法非常不实用，导致矩阵非常密集。该模型存在过平滑问题，计算量大。

4.3 消融研究
在本节中，我们进行了消融研究，以研究 $s^2$ -MHCN中组件的相互作用，并验证是否每个组件对最终的推荐性能都有积极贡献
4.3.1多通道设置的研究
我们首先通过从 $s^2$ -MHCN中删除三个通道中的任何一个，并留下另外两个通道来观察性能的变化从而研究多通道设置。图中的每个条形图(complete除外)表示对应的通道被删除的情况，complete表示没有被删除模块。从图5可以看出，移除任何通道都会导致性能下降。但很明显，购买通道对最终性能的贡献最大。如果没有此通道， $s^2$ -MHCN将下降到表3所示的LightGCN水平。相比之下，删除社交通道或联合通道不会对最终表现产生如此大的影响。对比社交通道和联合通道，我们可以发现社交通道在LastFM上和Yelp上的贡献略多一些，然而联合通道在Douban上更为重要。
在这里插入图片描述
为了进一步研究当所有通道都被使用时，每个通道的贡献，我们将学习到的注意力权重和其他模型参数可视化，并绘制一个方框图来显示注意力权值的分布。从图6可以看出，对于LastFM中绝大多数用户来说，社交通道对全面的用户表示的影响有限。和图5结论一致，购买通道在形成全面的用户表示中起着最重要的作用。联合通道的重要性介于两者之间。可能的原因是，社交关系通常是嘈杂的，而那些只具有社交关系的用户可能并不总是拥有相似的偏好。

在这里插入图片描述
4.3.2 自我监督任务的研究

为了研究层级互信息最大化(MIM)的有效性，我们将该过程分为两部分:局部的互信息最大化是用户和以用户为中心的子超图之间，全局互信息最大化是以用户为中心的子超图和超图之间。然后我们用这两种互信息最大化中的任何一种运行MHCN以观察性能变化。我们还比较了层级互信息最大化和节点图互信息最大化在DGI中的应用，以验证我们的设计的合理性，因此我们参照原始论文实现了DGI。结果如图7所示，我们使用Disabled表示普通的MHCN。与图6中的条形图不同，图7中的每个条形图都表示只使用相应模块的情况。可以看出，层级互信息最大化的性能最好，局部互信息最大化的性能次之。相比之下，全局互信息最大化的贡献较小，但在Douban、Yelp上的表现仍优于DGI。实际上，DGI对后两个数据集几乎没有贡献，我们很难找到合适的参数使其与我们的任务兼容。在某些指标上，用DGI对MHCN进行训练甚至会降低性能。根据这些结果，我们可以得出结论，自监督任务是有效的，我们的层级互信息最大化比节点图互信息最大化更合理。
在这里插入图片描述
4.4 参数敏感度分析
在本节中，我们研究了𝛽和𝐿的灵敏度。
由于我们采用主&辅范例，为了避免梯度传播中辅助任务的负干扰，我们只能为𝛽选择小值。我们在一个小的区间内搜索适当的值，并根据经验将其从0.001设置到0.5。然后，我们从0.001开始尝试，然后逐步增加步长。在这里，我们报告了设置8个具有代表性的𝛽值时 $s^2$ -MHCN的性能，{0.001、0.005、0.01、0.02、0.05、0.1、0.5}。如图所示。随着𝛽值的增加， $s^2$ -MHCN在所有数据集上的性能不断提高。在所有数据集上，当𝛽为0.01时，性能达到顶峰，然后开始稳步下降。根据图8，我们可以得出一个结论，即使很小的𝛽也可以提升推荐任务，而一个更大的𝛽也会误导它。自我监督任务带来的好处很容易被抵消，推荐任务对自我监督任务的大小很敏感。因此，在对数据分布没有太多先验知识的情况下，选择较小的值更容易完成主要任务。
在这里插入图片描述
最后，我们研究了𝐿对寻找 $s^2$ -MHCN最优深度的影响。我们将超图卷积层从1层叠加到5层。根据图9，当 $s^2$ -MHCN的深度为2时，可以达到 $s^2$ -MHCN的最佳性能。随着层数的持续增加， $s^2$ -MHCN在所有数据集上的性能都有所下降。显然，一个浅层的结构更适合 $s^2$ -MHCN。一个可能的原因是， $s^2$ -MHCN聚合了来自遥远的邻居的高阶信息。因此，随着深度的增加，更容易遇到过平滑问题。基于超图建模的DHCF也存在这个问题。考虑到过平滑的表示可能是基于超图卷积网络模型中的一个普遍问题，我们将在未来努力克服它。
在这里插入图片描述

5. 结论
近年来，基于GNN的推荐模型在社会推荐中取得了很大的成功。然而，这些方法只是简单地将社交推荐系统中的用户关系建模为成对的交互，而忽略了现实世界中的用户交互可能是高阶的。超图提供了一种自然的方式来建模高阶用户关系，但其社交推荐的潜力尚未得到充分开发。本文将超图建模与图神经网络相融合，提出了一种基于多个图诱导的超图的多通道超图卷积网络(MHCN)来提高社交推荐。为了弥补MHCN中聚合的损失，我们创新性地将自监督学习融入到MHCN的训练中。自监督任务作为辅助任务，通过最大化用户、以用户为中心的子超图和超图表示之间的层级互信息来促进推荐任务。在三个公共数据集上进行的大量实验验证了MHCN各组件的有效性，并展示了其最先进的性能。