SIGIR 2021 | 推荐系统中的自监督图表征学习

最新推荐文章于 2024-05-26 17:30:19 发布

PaperWeekly

最新推荐文章于 2024-05-26 17:30:19 发布

阅读量1.7k

点赞数 1

文章标签：大数据计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/117393156

版权

©PaperWeekly 原创 · 作者 | 吴剑灿

学校 | 中国科学技术大学博士生

研究方向 | 信息检索

摘要

推荐系统中用户-物品交互图上的表征学习（Representation Learning）已经从使用单个 ID 或历史交互行为发展到利用交互图上的高阶邻域信息，催生了诸如 PinSage 和 LightGCN 等图卷积网络（Graph Neural Networks）。

虽然它们取得了不错的性能提升，但我们认为这些模型存在如下局限性：（1）高度结点对表征学习的影响更大，从而降低了低度（长尾）物品的推荐效果；（2）邻居聚合方案进一步扩大了观测到的连边的影响，使得表征学习容易受到噪声交互的干扰。

在这个工作中，我们探索在用户-物品交互图上的自监督学习以改善基于 GCN 的推荐模型的准确性和鲁棒性。其思想是在经典的有监督推荐任务的基础上增加一个辅助的自监督学习任务，通过自我鉴别的方式来增强结点的表征学习。我们将这种新的学习范式称为自监督图学习（SGL）。

通过理论分析，我们发现 SGL 具有主动挖掘难负样本（Hard Negatives）的能力。在三个基准数据集的测试表明SGL可以提高推荐的准确性，尤其是长尾物品的推荐精度，而且对噪声交互具有更强的鲁棒性。

论文标题：

Self-supervised Graph Learning for Recommendation

论文作者：

吴剑灿（中国科学技术大学），王翔（新加坡国立大学），冯福利（新加坡国立大学），何向南（中国科学技术大学），陈亮（中山大学），练建勋（微软亚洲研究院），谢幸（微软亚洲研究院）

收录会议：

SIGIR 2021

论文链接：

https://arxiv.org/abs/2010.10783

代码链接：

https://github.com/wujcan/SGL

研究背景

从交互数据中学习高质量的用户和物品表征是协同过滤的核心。早期的工作如矩阵分解模型（MF）将每个用户（或物品）的 ID 映射为一个 embedding 向量来进行学习。后续的研究则考虑引入历史交互行为来丰富单一的 ID 信息，以便更好地进行表征学习。

最近，受到图卷积网络的启发，推荐系统中的表征学习发展到利用用户-物品交互图中的高阶连通性，将多跳邻居聚合到结点表征学习中，并取得了性能提升。虽然这些方法很有效，但存在着如下的不足：

监督信号稀疏：大部分的推荐系统模型采用有监督学习范式，其监督信号来自观测到的交互数据。然而，与完整的交互空间相比，观测到的交互极其稀疏，使得模型无法学习到高质量的表征；
数据分布偏态：用户-物品交互图上的用户结点和物品结点通常呈现幂律分布（power-law distribution），其中由低度物品构成的长尾部分缺乏监督信号，相反，高度物品则频繁出现在邻居聚合和目标函数中，对表征学习产生更大的影响，使得模型偏向于推荐头部物品，而牺牲了长尾物品的曝光；
交互数据存在噪声：用户提供的反馈信息大部分是隐式的（如点击、浏览等）而非显式的（如评分、喜欢/不喜欢等）。因此观测到的交互数据通常存在噪声，例如，用户被误导而点击了某个物品，然而在消费该物品后发现对其不感兴趣。而 GCN 中的邻居聚合机制扩大了交互行为对表征学习的影响，使得模型更容易受到噪声交互的影响。

在这个工作中，我们重点探讨利用自监督学习（Self-supervised Learning, SSL）来解决上述问题。虽然自监督学习在 CV 和 NLP 领域应用广泛，但它在推荐领域受到的关注还相对较少。其核心思想是设置一个辅助任务，从输入数据本身（特别是未标注的数据空间）提取额外的监督信号。例如，BERT 随机掩码一些词项，然后将辅助任务设置为对这些词项的预测以捕捉词项之间的依赖关系。

一般来讲，除了必需的图编码器外，基于GNN的自监督学习还需要额外两个关键模块：（1）数据增强模块，它为每个结点生成多个视图；（2）对比学习模块，它最大化同一结点的不同视图间的一致性表征和不同结点的视图间的差异性表征。与有监督学习相比，SSL 允许我们通过对输入数据进行更改来利用未标注的数据空间，从而在下游任务中获得显著的性能提升。

方法介绍

方法介绍共分为三个部分：图结构上的数据增强、多任务训练框架、SGL 的梯度分析

3.1图结构上的数据增强

考虑到二分图是由用户-物品的交互构建的，包含着丰富的协同过滤信号，具体来讲，二分图上的一阶邻居直接描述用户历史交互的物品（或交互过该物品的用户）；二阶邻居表示具有相同行为的用户（或有相同受众的物品）；用户到物品结点的高阶路径则代表着用户对物品的潜在兴趣。因此，挖掘图结构的内在模式对表征学习具有积极的意义。一个基于图神经网络的推荐模型可以抽象成如下公式：

其中表示第 l 层结点表征，表示根据用户历史交互构建的二分图，

最低0.47元/天解锁文章

PaperWeekly

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
SIGIR 2021 | 推荐系统中的自监督图表征学习

©PaperWeekly 原创 · 作者 |吴剑灿学校 |中国科学技术大学博士生研究方向|信息检索摘要推荐系统中用户-物品交互图上的表征学习（Representation Lear...
复制链接

扫一扫