论文阅读——MGCN

flashlight_hi

已于 2024-09-20 09:16:13 修改

阅读量758

点赞数 8

分类专栏：多模态文章标签：论文阅读

于 2024-06-04 19:07:38 首次发布

本文链接：https://blog.csdn.net/flashlight_hi/article/details/139446766

版权

多模态专栏收录该内容

2 篇文章 1 订阅

订阅专栏

Multi-View Graph Convolutional Network for Multimedia Recommendation

摘要

该文献提出了一种用于多媒体推荐系统的新方法，即多视图图卷积网络（MGCN）。当前的方法面临诸如模态噪声污染和不完整的用户偏好建模等限制。MGCN旨在通过净化模态特征、在单独的视图中丰富模态特征以及基于用户偏好调整模态特征的融合来解决这些问题。这是通过行为引导净化器、多视图信息编码器和具有自我监督辅助任务的行为感知融合器来实现的。该模型增强了特征的可区分性，捕获了互补的偏好信息，并改进了用户偏好建模。实验结果在三个公共数据集上验证了该方法的有效性。关键贡献包括开发了行为引导净化器、多视图信息编码器和具有新型自我监督辅助任务的行为感知融合器。总的来说，MGCN通过解决当前方法中的关键限制，在推进多媒体推荐系统方面显示出了前景。

引言

由于用户的偏好经常受到多模式信息的影响，研究人员已经开始将多模式信息纳入推荐框架[41，51]。多媒体推荐的一个典型管道是首先通过预先训练的深度神经网络提取多模式特征，然后将多模式特征与行为特征融合作为项目的表示[2，18]。基于项目的多模式表示，通过精心设计的协作过滤推荐框架对用户偏好进行建模。由于多模式特征增强了协作信号，从而提高了推荐性能。

多媒体推荐的早期工作，如视觉贝叶斯个性化排名（VBPR）[10]和跨模态知识嵌入（CKE）[47]，通过结合视觉特征扩展了矩阵分解（MF）[14]方法。由于用户交互数据可以自然地表示为二分图，最近的研究人员更喜欢图卷积网络（GCN）来限制高阶连通性并增强偏好特征[17，38，39，43]。例如，MMGCN[39]将不同的模态信息合并到多个用户项目视图中，并通过连接所学习的模态表示来对用户偏好进行建模。基于MMGCN，GRCN[38]利用多模式特征来细化用户项目视图，目的是修剪假阳性交互。这些基于GCN的方法取得了巨大成功，并获得了最先进的性能。

尽管取得了显著的成功，但现有的多媒体推荐方法仍存在两个局限性：

（1）模态噪声对项目表示的污染。多模态信息[49，51]中包含大量与偏好无关的模态噪声，如冗余文本描述、图像背景和图像亮度（例如，如图1所示）。直接注入模态特征会影响项目的表征学习。更糟糕的是，当前基于GCN的[4，21，39]方法倾向于将模态特征和行为特征混合在用户项目视图中进行传播。这意味着噪声将在节点之间传播，使模态噪声污染进一步放大并与行为特征耦合。最后，所有节点表示的可分辨性都降低了。

（2）由于对模态特征一视同仁而导致的用户偏好建模不完整。现有的研究通常通过简单的线性组合或级联来融合模态特征，从而平等地对待每个模态特征[18，25，39]。这种建模方式忽略了用户在购买不同商品时具有不同模态偏好的事实。换句话说，用户在观看微视频时可以关注缩略图（即视觉信息），而在购买书籍时可以关注描述（即文本信息）。目前的融合机制无法捕捉不同模态特征的相对重要性，从而无法对用户偏好进行全面建模。这些限制导致了次优的推荐性能。

为了解决上述问题，提出了一种用于多媒体推荐的新的多视图图卷积网络（MGCN）。所提出的模型配备了三个专门设计的模块：
行为引导净化器、多视图信息编码器和行为感知融合器。

一方面，为了净化模态信息，采用行为引导净化器对模态特征进行去噪。它在行为信息的指导下，从原始模态信息中过滤出与偏好无关的特征。随后，通过对项目-项目视图下的语义相关信号进行编码来丰富纯化的模态特征，而通过对用户-项目视图中的高阶协作信号进行编码来增强用户和项目行为特征。

另一方面，开发了一种行为感知融合器来全面建模用户偏好。它根据从用户行为特征中提取的模态偏好，自适应地融合项目的模态特征。随后在融合阶段引入自监督辅助任务。该任务旨在最大化融合的多模式特征和行为特征之间的相互信息，目的是同时从多模式和行为信息中捕获互补和补充特征。

在三个公共数据集上进行的综合实验证明了该方法的独特优势。

主要贡献

我们的主要贡献可概括如下：

•我们开发了一种行为引导净化器，在行为信息的引导下有效避免了噪音污染问题。

•我们设计了一个多视图信息编码器，通过分别捕获高阶协作信号和语义相关信号来丰富表示。

•我们提出了一种行为感知融合器，并构建了一种新的自监督辅助任务，该任务通过自适应融合编队行为和多模式信息来全面调整用户偏好。

模型构建

问题定义

多媒体推荐的目的是通过根据预测的偏好得分对每个用户的项目进行排名来准确预测用户的偏好。

行为导向净化器

模态信息提供了丰富而有意义的项目内容信息，同时不可避免地也包含模态噪声。为了避免噪声污染，我们提出了一种行为引导的净化器。

首先转换原始项目模态特征为高级特征。

然后，在行为特征的指导下，将偏好相关的模态特征从模态特征中分离出来。
在ID嵌入中编码的行为特征的指导下，我们将偏好相关的模态特征从项目的表示中分离出来。对于用户，我们通过聚合交互项目来获得他们的模态特征。

多视图信息编码器

根据[20，30]，协作信号和语义相关信号都会显著影响多媒体推荐的效果。因此，受[30]的启发，我们设计了一种多视图信息编码器来增强特征的可分辨性。它从用户-项目关系的角度捕获协作信号，从项目-项目关系角度捕获语义相关信号。

用户-项目视图

特别地，为了捕获高阶collaborative信号，我们构造了一个GCN模块来在交互图上传播用户和项目的ID嵌入。第𝑙-图卷积层的消息传播阶段可以公式化为：

L是用户项目图的拉普拉斯矩阵：

第𝑙层的表示对𝑛阶neighbors的信息进行编码。通过聚合高阶邻居信息，可以获得最终表示：

项目-项目视图

与用户项目视图类似，对项目-项目相关性图的图卷积操作可以捕获语义相关的信号，从而丰富项目模态特征。然而，在密集相关性图中传播模态特征在计算上要求很高，并且可能通过不重要的边缘引入噪声。因此，我们在稠密图上进行KNN稀疏化[5]。

具体来说，我们首先基于每个原始模态特征的相似性来量化项目-项目相关性。考虑到假定的复杂性，选择了余弦相似性。然后，构造一个全连通图，以指示模态中的项目-项目相关性。相关性图S𝑚的行𝑎和列𝑏中的元素为：

通过执行图卷积运算，我们捕获相邻节点的常见模态特征，这些特征可用于增强目标节点。为了从邻居那里捕获最相关的特征，对于每个项目a，我们只保留具有最大相似性的K条边：

与用户项目视图相同，我们对项目-项目关联矩阵进行归一化，以缓解爆炸梯度问题

然后，我们通过相应项目-项目-特征矩阵S上的GCN模块传播所有项目的模态特征E𝑚：

（将每个物品的特征通过GCN模块在其对应的物品之间的关系矩阵上进行传播）

它能够通过捕捉相似项目的共同特征来丰富功能。然而，需要注意的是，在项目-项目视图中，节点模态特征的语义相似性随着传播路径的增加而显著降低。堆叠多个图卷积层不仅会导致节点过平滑问题，而且很容易捕捉到噪声特征。

因此，在本研究中，我们构建了一个浅GCN模块来在 $S_m$ 上传播模态信息（我们将图卷积层设置为1，并在第3.3节中证明了这种效果）。

最后，我们通过聚合交互项目模态特征来获得用户模态特征。用户的模态特征表示为:

行为感知融合器

为了准确地捕捉不同模式下项目的特征，我们设计了一个行为感知融合器。它允许基于用户模态偏好的灵活融合权重分配，这些偏好可以从行为特征中提取。此外，为了鼓励模型全面探索用户偏好，在融合过程中引入了自监督任务。该任务旨在最大化行为特征和融合的多模式特征之间的相互信息[12，13]。

具体而言，模态偏好P𝑚首先从用户行为特征中提取：

所有模态都具有模态共享和模态特定的特征。对于模态共享功能，用户的注意力保持一致，因为这与用户购买的预期目的一致。因此，我们首先提取模态通过注意力机制共享特征[28，35]，其中每个模态特征E𝑚的注意力权重计算为：

所有模态都共享这些参数

获得模态共享特征E𝑠：

特定模态的特征：模态特征减去模态共享特征

最后，我们自适应地融合模态特定的特征，并将它们与模态共享特征E𝑠组合作为最终特征：

为了促进对行为和多模式信息的探索，设计了一个自我监督的辅助任务。此任务的数学表达式如下：

𝜏 是softmax的温度超参数

预测

基于增强的行为特征和多模式特征，我们形成了用户和项目的最终表示：

采用内积来确定用户𝑢和项目之间的交互好感度：

在模型训练阶段，我们采用贝叶斯个性化排序（BPR）损失作为基本优化任务，该任务假设用户更喜欢历史上交互的项目而不是未交互的项目。它与辅助的自我监督任务相结合，共同更新用户和项目的表示：

其中E是模型参数的集合； $\lambda_C$ 和 $\lambda_E$ 分别用于控制对比辅助任务和L2正则化的效果

实验

通过实验结果可以很好地回答以下四个问题：

•RQ1：与最先进的多媒体推荐方法和其他协作过滤方法相比，MGCN的表现如何？

•RQ2：模块如何影响MGCN的性能？

•RQ3：不同的超参数设置如何影响MGCN模型的结果？

•RQ4：为什么净化模态信息可以达到更好的推荐性能？

对比实验

为了评估我们提出的模型的有效性，我们将其与几个有代表性的推荐模型进行了比较。这些基线分为两类：一般模型，仅依靠交互式数据进行建议；多媒体模型，利用交互式数据和多模态特征进行推荐。

消融实验

模型各模块的影响

•不带BG：我们移除了行为引导净化器。相反，将预先提取的模态特征直接馈送到多视图信息编码器中。

•不带MV：我们移除了多视图信息编码器。

模态特征被连接并在用户-项目交互图上传播。简单地对协作信号进行编码也是一样的。

•不带BA：我们移除行为感知定影器。通过平均每个模态特征和行为特征来获得最终表示𝑖𝑑 .