网络规模推荐系统的图卷积神经网络

1. 摘要

    最近的推荐系统中最突出的是称为图卷积网络(GCNs)的深度学习架构,通过使用神经网络循环地提取总体的特征信息(如,图1),而一个“卷积”操作从一个节点的单跳图邻域转换并聚集特征信息,并通过叠加多个这样的卷积操作,信息可以传播到图的远端。另外,与纯粹基于内容的深度模型不同的是,GCNs利用了内容信息和图结构。然而如何将GCN的训练和推理过程扩展到具有数十亿个节点和数百亿条边的图,却成为了一大难题。要知道GCNs的许多核心假设使与大数据工作环境矛盾的。故而该论文提出了一个可扩展的GCN框架PinSage,且提出了一种新的卷积和训练方法,以提高模型的鲁棒性和收敛性。

在这里插入图片描述

2. 关键技术介绍

动态卷积:PinSage算法通过对一个节点周围的邻居进行采样,并从采样的邻居中动态地构造一个计算图,从而执行高效的局部化卷积。这些动态构建的计算图(如,图1)指定了如何在特定节点上执行局部卷积,并减少了在训练期间对整个图进行操作的需要。

生产者-消费者的小批量构建:通过构建小批量训练模型,以确保在模型训练期间最大限度地利用GPU。

高效的MapReduce推理:对于给定的一个完全训练好的GCN模型,设计了一个高效的MapReduce管道,它可以分配训练好的模型来生成数十亿节点的嵌入,同时最小化重复计算。

随机游动构造卷积:取节点的全部邻居进行卷积(如,图1),会产生巨大的计算图形,因此该论文开发了一种利用短随机游动对计算图进行抽样的新技术。

重要度池:通过引入了一种基于随机游走相似性度量的方法来衡量节点特征在这个聚合中的重要性,从而在离线评估度量中获得了 46% 的性能提升。

课程训练:该论文设计了一个课程训练方案,在训练过程中给算法输入更复杂的样本,从而使结果获得了12%的性能提升。

3. 方法

3.1 问题解读

    Pinterest 是一个内容发现应用,用户可以通过图钉(Pins)来互动。在此,任务是为图钉生成高质量的内嵌表示。为了学习这些内嵌表示,我们将 Pinterest 环境建模为一张由两套不相关的节点组成的二分图,I(图钉)和 C(钉板)。

    除了图结构,假设图钉u∈I与实值属性 xu∈Rd相关。这些属性指定了一个条目的元数据或内容信息。

    另外,为了说明方便和通用性,并不明确区分图钉和钉板节点,尽可能使用更通用的术语“节点”。

3.2 模型架构

    使用局部化的卷积模块为节点生成嵌入,在输入节点的特征后学习神经网络,转换并累积图特征,最后计算节点内嵌表示。

前向传播算法: 在局部卷积中,根据节点的输入特征和周围的局部图结构,为每一节点u生成一个嵌入的Zu。基本的想法是:通过稠密神经网络对u邻域图v的内嵌表示Zv进行转换。然后,将累计得到的邻域向量nu与u的当前表示hu连接起来,并通过另一个稠密神经网络层进行转换。该算法的输出是u的一种同时包含了u自身信息和它的局部图邻域的信息的表示。

基于重要性的邻域N(u):假设u的邻域定义为对u最具有影响力的 T 个节点。通过模拟随机游走,从节点 u 开始,计算随机游走访问节点的L1正则化访问次数。所以,u的邻域定义变为正则化访问次数最高的前 T 个节点。

堆叠卷积:每次应用卷积操作算法得到一个新的节点表示,故而可以彼此间堆叠多个这样的运算,以获得更多的节点周围的局部图结构的信息。

由于文章在服务器上,全文内容详见http://bbit.vip/service/main.php?version=1&type=article&id=17

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值