深度图卷积网络系列文章(二)---DropEdge:Toward Deep Graph Convolutional Networks on Node Classification
DropEdge:关于节点分类的深度图卷积网络
今天分享的一篇文章是DropEdge:Toward Deep Graph Convolutional Networks on Node Classification,ICLR2020。
文章地址:https://iclr.cc/virtual_2020/poster_Hkx1qkrKPr.html
本文提出了一种随机边删除技术,通过随机去掉一定比率的边,DropEdge增加了输入数据的多样性,以防止过拟合,并减少了图形卷积中的消息传递,以缓解过平滑。
目前大部分图卷积网络都是浅层网络,即使使用残差连接,模型的分类效果也会随着深度的增加而变差。图卷积无法做到过深的原因是过拟合和过平滑,过拟合削弱了小数据集的泛化能力,随着网络深度的增加,过平滑会使输出表示与输入特征分离,阻碍了模型的训练。
虚线部分是原始的 4 层和 8 层 GCN 在 Cora 数据集上的训练曲线(这里为了更好展示过拟合和过平滑,取消了 GCN 层中的 bias),可以看到,在 GCN-4 上,验证集的损失函数在训练经过一定轮数后反向增长。这个增长是优于过拟合的。而在 GCN-8 上,训练集的损失函数则根本没有下降,这是因为过平滑的存在,导致 GCN-8 上训练失效。
过拟合
拟合训练数据的效果很好,但是对测试数据的推广很差,例如GCN-4。
过平滑
GCN的思想是聚合邻居节点和节点自身的特征信息来学习节点的表示,所以随着网络的加深,节点的表示具有趋同性,节点之间的区别会变小。最终,所有节点将会收敛到一个固定点,这样节点的表示便与输入特征无关,并且也会导致梯度消失,如GCN-8。
DropEdge
随机边删除技术,在每个epoch随机地从输入图中删除一定数量(固定比例)的边,就像一个数据增强器,同时也是一个消息传递减少器。DropEdge可以与其它骨干模型(GCN/ResGCN/GraphSAGE/JKNet)一起配置,虽然整体的精度还是随着层数的增加而降低,但是相对来说每一层的精度都提高了,那么网络的深度相对来说就会提高。
形式上,随机地选取邻接矩阵 A A A的 V p V_p Vp个非零元素,将其置0。其中 V V V是边的总数, p p p是删除率,删除之后得到的邻接矩阵为 A d r o p A_{drop} Adrop,那么有 A d r o p = A − A ′ A_{drop}=A-A'