【GNN】PinSAGE：GCN 在工业级推荐系统中的应用

最新推荐文章于 2024-08-30 08:21:07 发布

阿泽的学习笔记

最新推荐文章于 2024-08-30 08:21:07 发布

阅读量2.7k

点赞数 2

分类专栏： GNN 人工智能 Embedding 文章标签：深度学习机器学习神经网络 GCN 图神经网络

本文链接：https://blog.csdn.net/qq_27075943/article/details/106652475

版权

PinSAGE是Pinterest与斯坦福大学合作的论文提出的图神经网络模型，结合随机游走和GCN生成节点Embedding，适用于大规模工业级推荐系统。通过动态卷积、生产者-消费者批处理和MapReduce优化，解决了在大规模图数据上的训练难题。论文中引入的重要池化和课程学习策略提高了模型性能和收敛速度。

摘要由CSDN通过智能技术生成

今天学习的是 Pinterest 和斯坦福大学 2018 年合作的论文《Graph Convolutional Neural Networks for Web-Scale Recommender Systems》，目前有 200 多次引用。

论文中提出的 PinSAGE 结合了随机游走和 GCN 来生成节点的 Embedding 向量。同时考虑了图结构和节点的特征信息。此外，PinSAGE 也设计了一种新颖的训练策略，该策略可以提高模型的鲁棒性并加快模型的收敛。

这篇论文是 GraphSAGE 一次成功的应用，也是 GCN 在大规模工业网络中的一个经典案例，为基于 GCN 结构的新一代 Web 级推荐系统铺平了道路。

1.Introduction

GCN 在图数据中扮演着举足轻重的角色，其背后的核心思想在于使用神经网络来聚合领域的特征信息，并且通过堆叠可以扩大节点的感受野。与纯粹基于内容的深度模型（例如，递归神经网络）不同，GCN 会利用内容信息以及图结构。基于 GCN 的方法刷新很多的任务的 SOTA（state of the art），但是目前很多模型都尚未转化到实际生产环境中。

GCN 在工业中应用的主要挑战在于如何在数十亿节点和数百亿边的网络中高效完成训练，对此论文提出了以下几种改进措施：

动态卷积：通过对节点的领域进行采样构建计算图来执行高效局部卷积，从而减轻训练期间对整个图进行操作的需要；
生产者-消费者批处理构建：通过 mini-batch 来确保模型在训练期间最大限度的利用 GPU；
高效的 MapReduce：实际一种高效的 MapReduce 通道用于分发经过训练的模型以生成数十亿节点，同时最大程度地减少重复计算。

除了提高 GCN 的可扩展性外，作者还设计了新的训练方式和算法创新，提高了 Embedding 的质量，从而在下游任务中带来显著的性能提升：

通过随机游走构建卷积：利用短随机游走对图进行采样来代替随机采样；
Importance Pooling：基于随机游走相似性度量引入节点的特征重要性权重，并根据权重进行聚合；
课程学习（Curriculum Learning）：由 Bengio 在 2009 年提出，主要是模仿人类学习的特征，由简到难的来学习课程。在机器学习领域就是先训练容易区分样本，在训练难以区分的样本。

接下来我们看下算法具体的实现。