读书笔记4:Stochastic Training of Graph Convolutional Networks with Variance Reduction

本文提出的背景是:graph convolutional networks(GCN),一层一层的迭代,进行卷积,receptive field随着层数的增加呈指数级扩大,增加了计算负担。之前曾有通过对neighbors进行下采样的方法来减小receptive field的方法,但是不能保证其收敛性,并且receptive field还是很大。本文提出了“control variate based algorithms”,能够在理论上证明其无论在neighbor的采样尺寸如何,都能够收敛到局部最优。这种理论上证明过的优点使得训练的时间复杂度可以大大降低,在卷积的时候可以每次只选取两个近邻节点参与,同时,和之前的NS(neighbor sampling)方法相比,本文的模型降低了bias和variance(后文证明了本文的方法对于选取所有近邻节点进行卷积的方法来说,是无偏的)。

本文说的这种receptive field随着网络层数增加而不断扩大的问题应该只在那种数据集是一个大的graph,在某些nodes上训练,然后在某些部分上做测试的这种节点分类问题,例如Cora这种引用文献数据集。至于那种训练集是很多小的graph,那就应该不存在这种问题了,例如药物分子的分类,skeleton based action recognition,这种整个graph都没几个node的数据,增加网络层数也不会带来receptive field爆炸的问题。

先介绍下和本文密切相关的工作,首先是Neighboring Sampling(NS):NS是随机的在第l层为每个节点选取个neighbors,然后卷积操作近似为

                              

其中指的是在节点u处常规的卷积操作,P是propagation matrix,,其中,A是邻接矩阵,I是单位矩阵,,也即P是修饰过的邻接矩阵,用来进行常规的卷积操作。n(u)是节点u的近邻节点数,是从n(u)中选取出的D(l)个参与卷积的节点,这样,第L层网络的receptive field就可以表示为被称为的NS estimator,而自身被称作exact estimator。NS还可以被写作,其中是P的一个无偏估计子,。但是,虽然是一个无偏估计子,但是最终的卷积结果并不是无偏的,因为完整的卷积操作之后还会有一个非线性变换,也即是完整的卷积,而的非线性导致使用NS估计子得到的卷积结果和exact estimator得到的卷积结果得到的结果相比并不是无偏的。

接着介绍本文的control variate based algorithm。在计算近邻节点的加权平均的时候,由于需要一层层递归计算,还需要上一层网络的激活结果,这种操作消耗太大。作者提出的对策是将每一层的计算出来之后搞一个作为近似。作者对这个近似的期望是当模型的权重变化不是很快速的时候,要很相近,正式的表达如下,两者的差异表达为,有近似如下:

         

也就是说,这时通过随机选取近邻节点所得到的项是

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值