论文阅读《Self-supervised Graph Learning for Recommendation》

最新推荐文章于 2024-05-08 09:44:02 发布

怼怼是酷盖

最新推荐文章于 2024-05-08 09:44:02 发布

阅读量994

点赞数 2

文章标签：深度学习神经网络推荐系统推荐算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43431934/article/details/124133418

版权

文章提出SGL框架，将自监督学习应用于图结构数据增强，以解决GCN推荐算法对高度节点过度关注和易受噪声影响的问题。通过节点舍弃、边舍弃和随机游走生成不同视图，提高推荐算法的稳健性和效果。自监督学习通过对比学习优化目标，促使同一节点视图的嵌入向量接近，不同节点向量偏离，实现数据增强。

摘要由CSDN通过智能技术生成

总结

文章认为当前的推荐算法往往是基于GCN的结构监督学习，更侧重于网络中度数高（即发生交互多）的节点而忽视了低度数节点，此外还容易受到交互噪声的影响。因此文章将自监督学习Self-supervised Learning引入到图结构数据上，提出了SGL框架，通过利用节点舍弃、边舍弃和随机游走三种方法，为同一个节点生成不同视图，从而达到了在原有数据上的增强，进一步提高了推荐算法的稳健型和效果。下图为传统监督图学习和自监督图学习的区别：

在这里插入图片描述

1 GCN结构和监督学习

现有推荐算法往往都基于GCN结构，即通过堆叠多层来为网络中的节点学习嵌入向量，其基本公式如下：

在这里插入图片描述

通过结合上一层的节点自身向量与上一层需要聚合的相关节点向量，进而生成本层的节点向量，在执行L层后，最终的节点向量可计算如下：

在这里插入图片描述

这种基于GCN结构的推荐算法，往往使用监督学习的模式，即根据图结构与学习得到的向量，构建损失函数促使预测的推荐结果与真实的交互结果更接近：

在这里插入图片描述

2 利用自监督学习对图结构进行数据增强

文章通过小部分地改变图结构，为每个节点生成多个视图，在训练过程中，促使属于同一节点视图生成的嵌入向量更加接近，而非同一节点的向量更加偏离。具体地，算法每次为每个节点额外多生成两个视图，记为Z_1和Z_2：

在这里插入图片描述

其中，H为与GCN相似的聚合函数，s则表示对图结构进行的不同调整。

2.1 节点舍弃(Node Dropout)

使用节点舍弃的方法时，设置概率p，则每个节点有p的可能性在图结构中被舍弃，公式如下：

在这里插入图片描述

其中M为掩码向量，通过将某个节点对应位置上的掩码设置为0，即在图结构中屏蔽了该节点。这种数据增强有望从不同的增强视图中识别有影响的节点，并使表征学习对结构变化不那么敏感。

2.2 边舍弃(Edge Dropout)

边的舍弃方法与节点相同，同样是按照某个概率随机舍弃现有边：

在这里插入图片描述

2.3 随机游走(Random Walk)

值得注意的是，上述两种方法都是在同一层中生成不同子图，而随机游走则是为不同层分配不同子图（即同层使用同一游走结果），示意图如下：

在这里插入图片描述

此外，随机游走与上述两种舍弃方法是可以共存的，因此节点在不同层拥有不同的图结构，在同一层再经过节点或边的舍弃得到两个不同视图：

在这里插入图片描述

3 对比学习

在为每个节点生成两个不同的视图之后，算法将这两个视图衍生的嵌入向量视为正样本对，将其他不同的节点视为负样本对，那么自监督学习的优化目标即令正样本对中的两个嵌入向量尽可能相似，有：

在这里插入图片描述

其中z’和z’'代表两个视图的嵌入向量，函数s()用于计算向量间的相似度。值得注意的是，在推荐算法中，用户和商品的节点向量要分开考虑，因此自监督学习的损失函数应为上述用户和商品损失函数的加和。

4 多任务训练

自监督学习是用于增强推荐算法稳健型和效果的通用性框架，因此除自监督的优化目标外，整体的损失函数还需要考虑推荐的优化目标，则有：
在这里插入图片描述

main指的即任意推荐算法的核心推荐损失函数，自监督损失和罚项则通过不同的超参数进行调节。
此外，文章还针对自监督学习的理论解释和复杂度做了分析。

怼怼是酷盖

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

怼怼是酷盖 CSDN认证博客专家 CSDN认证企业博客

码龄6年

59: 原创

6万+: 周排名

4万+: 总排名

16万+: 访问

: 等级

890: 积分

138: 粉丝

212: 获赞

58: 评论

1028: 收藏

私信

关注

热门文章

分类专栏

Leetcode 1篇
推荐系统 5篇

最新评论

Latex- Texlive+Texstudio 安装和使用
江上吟: 条理非常清晰的博客
Latex- Texlive+Texstudio 安装和使用
HZy55555678: 太棒啦
Latex- Texlive+Texstudio 安装和使用
No_one-_-2022: 非常好的文章，使我头发旋转
Latex- Texlive+Texstudio 安装和使用
No_one-_-2022: 这是他会自动闪退，可以直接搜索相关问题
修改版本1
怼怼是酷盖: import pandas as pd def extract_info(cell): # 假设cell是单元格中文本的字符串表示形式 # 按行分割单元格内容 lines = cell.split('\n') info = {'咨询问题类型': None, '问题描述': None} # 初始化字典 # 遍历每行，找到并提取关键信息 for line in lines: # 检查是否包含“咨询问题类型”和“问题描述” if '咨询问题类型：' in line: # 提取类型信息 info['咨询问题类型'] = line.split('咨询问题类型：')[1].strip() elif '问题描述：' in line: # 提取描述信息 info['问题描述'] = line.split('问题描述：')[1].strip() # 只返回需要的键 return {key: info[key] for key in ['咨询问题类型', '问题描述'] if info[key]} def process_uploaded_file(file): if file: # 读取Excel文件 df = pd.read_excel(file) # 检查是否存在名为'文本'的列 if '文本' in df.columns: # 应用extract_info函数提取信息 extracted_data = df['文本'].apply(extract_info) # 转换结果为DataFrame extracted_df = pd.DataFrame(extracted_data.tolist()) return extracted_df else: print("未找到名为 '文本' 的列。") return pd

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。