[WWW23]图对比推荐论文Automated Self-Supervised Learning for Recommendation简介

 论文链接:

背景

        图神经网络(GNN)已经成为协同过滤(CF)的最先进范式。为了从有限标签数据中获得高质量的嵌入表示,对比学习(CL)在推荐任务中开始收到关注。然而,大多数基于对比学习的方法的成功在很大程度上取决于手动生成的对比视图(view),这种数据增强策略很难在不同的数据集和下游推荐任务中推广。准确生成用于对比学习的视图非常具有挑战性,并且手动执行数据增强会不可避免地涉及噪声和无关信息。

        从图结构级别和局部-全局增强的角度来看,通过随机节点/边丢弃操作得到的视图可以会导致:(1)丢弃重要的结构信息;(2)保留噪声数据。

        考虑到目前基于对比学习的推荐系统的有限性,作者认为有必要设计一个统一的基于自监督学习(SSL)的推荐框架,其不仅可以提取自监督信号进行有效的数据增强,还可以减轻人工生成自监督信号或定义增强策略的工作量。

方法AutoCF

        为了解决上述问题,作者提出了自适应掩码图自编码器(adaptive masked graph autoencoder, AutoCF),如下图所示:

 自动图增强

        为了在基于图结构的交互数据上自适应地提取重构的自监督信号,作者提出自适应地重构遮盖的用户-物品交互边。核心思想在于首先识别交互图G中的中心节点,随后基于它们的子图结构信息来掩码交互边。对应的可训练的交互掩码函数被定义为:

 其中U和I分别是用户和物品节点集合,V是中心节点集合。\mathcal N_v^k表示节点v的k阶内的邻居。(v_1,v_2)表示给定中心节点v抽样的子图结构中,通过集合减法操作“\”掩码的现存的边。

        基于用户和物品之间的高阶图协同关系,作者利用互信息(MI)来衡量节点级别嵌入和子图级别表示之间的语义相关性。形式上,节点v的子图语义相关分数s_v被定义为:

其中h是随机初始化的嵌入表示,而sigm()表示sigmoid激活函数。子图级别的表示通过聚合k-阶子图中除中心节点v之外的所有节点进行构造。语义相关性得分越大,不仅表明目标用户和他/她的图相关节点(用户/物品)之间的结构一致性越高,而且采样子图的拓扑信息噪声的百分比越低。例如,一个有许多错误点击的异常用户将导致与其他用户在交互数据的协同关系方面的结构一致性降低。

        为了提高掩码范式\varphi()的鲁棒性,作者将Gumbel分布噪声注入至指定节点的掩码概率推导中:

 基于所有节点的估计掩码概率\varphi ',可以通过选取排名靠前的用户和物品节点的掩码概率来生成一组S个中心节点。为了通过可学习的数据增强来优化AutoCF,作者使用基于互信息最大化的优化方式,通过子图互信息最大化进一步注入SSL信号:

 掩码图自编码器MGAE

        AutoCF的目标是在图G中掩码的用户-物品交互边之上通过重构学习任务来增强基于图的协同过滤任务。作者将具有掩码边的增强图输入到图自编码框架中。具体来说,AutoCF将在推荐系统中广泛使用的图卷积网络(GCN)作为编码器,以此将图结构信息编码至用户和项目节点嵌入中。为了缓解GNN的过度平滑问题,作者采用图自注意力机制作为解码器来桥接编码器和辅助的自监督重构任务。

        给定由自动图增强得到的掩码的交互图\mathcal G'=\varphi(\mathcal G, \mathcal V, k),AutoCF的编码器将通过轻量级的图卷积网络进行构造:

 其中上标l表示第l个图神经网络层。\alpha是两个节点之间的归一化权重,通过两个节点的度进行计算。在该过程中,AutoCF应用残差连接来实现最后一层的自传播,以此缓解梯度消失问题。

        上述基于图卷积的编码器允许我们捕获用户-物品图的结构信息,但随着图网络层数增加,过度平滑问题将出现。为了缓解这一问题,作者尝试引入了图自注意力机制。注意到基于注意力的信息聚合解决了具有有限感受野的局部GCN的局限性,但高额的计算复杂度限制了在大规模用户-物品交互图上执行消息传递的可行性。作者认为可在在节点子集上进行成对的关系学习,其重点是掩码的子图结构。通过这样做,不仅可以提高图自注意力解码器的效率,还可以进一步捕获具有高阶结构信息。

        具体来说,首先定义包含来自于所有掩码子图的顶点的顶点集合\overline{\mathcal V}。给定\overline{\mathcal V},一个节点子集\widetilde{\mathcal V}可以从剩余节点((\mathcal U\cup \mathcal I)\setminus\bar{\mathcal V})中被添加。随后,从并集节点集中选择节点对\bar{\varepsilon },并可得:

 其中\varepsilon'是增强图\mathcal G'的边集。\rho是一个超参数,用于控制节点集合的比率。给定用于全局自注意力聚合的构造节点对,基于图注意力的信息传递范式被定义为:

 其中H是注意力头的个数,m用于指示两个节点之间是否需要计算注意力分数。掩码图结构的重构过程式如下损失:

 模型训练

        在模型训练阶段,作者进一步引入对比学习策略,通过均匀分布的用户嵌入来增强嵌入表示的区分能力,ICI更好地保留用户在隐空间中的偏好信息。具体来说,AutoCF通过对用户-物品,用户-用户、物品-物品对的正则化来生成更均匀的嵌入表示,以此提高嵌入的区分能力,并进一步缓解过平滑问题:

         完整的联合训练损失定义如下:

         AutoCF的完整训练过程如下所示:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值