点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
本文探究了随机删减方法在图神经网络(GNNs)上的应用。随机删减方法指的是在神经网络模型上一层输出和下一层输入之间随机删除部分元素的一类方法。这类方法能够广泛提升模型的鲁棒性和泛化性。几乎所有的深度模型都会应用这一方法来提升模型性能。针对近年来得到广泛研究的图神经网络(GNNs),很多随机删减方法的变体被提出,其中包括DropEdge[1],DropNode[2]。这些变体与传统的Dropout[3]一起,被众多GNNs模型使用。本文针对图神经网络的消息传递机制(message-passing),提出了在消息层面进行随机删减的DropMessage方法。DropMessage是更加细粒度的图上随机删减方法,现有的随机删减方法都是DropMessage的特殊形式。相比于现有方法,DropMessage的样本方差更小,保留了图上信息的多样性。本文从理论和实验上证明了DropMessage方法的优越性。
DropMessage示意图
图上的随机删减方法对比
1
DropMessage介绍
与现有的随机丢弃方法不同,DropMessage直接在消息矩阵上执行,而不是特征矩阵或邻接矩阵。具体来说,DropMessage以的删减率在消息矩阵上进行随机删减,这意味着消息矩阵中的个元素将被删除。对于消息矩阵中的每个元素,我们根据伯努利分布生成一个独立的掩码来确定它是否会被保留。然后,我们通过将每个元素与其掩码相乘来获得扰动后的消息矩阵。最后,我们用对进行缩放,以保证消息矩阵规模不变。整个过程可以表示为:
不同随机删减方法的不同形式化表示
2
理论分析
随机删减方法有效性的理论分析
本文先分析了随机删减方法在GNNs上为何会起作用。
随机删减方法会在模型的损失函数中引入额外的正则约束,使得模型更加鲁棒。以二分类节点分类任务为例,如果选择交叉熵作为损失函数,那么最终的优化目标将转变为:
优化这个损失函数,后项将会使得分类概率接近0和1,这会让模型得到更加明确的分类边界。此外,这个损失函数也会要求表征在不同扰动下尽量得到一致的最终结果,这增加了模型的鲁棒性。
DropMessage相比于其他方法的优势
A. 降低样本方差
在相同随机删减率的情况下,DropMessage有着最小的样本方差,这也意味着DropMessage将保证训练过程的稳定。实验中得到的曲线图也证明了这一点。
不同随机删减方法的训练曲线图
B. 保证信息多样性
DropMessage还有着信息多样性上的优越性。首先给出信息多样性的定义。
所有现有的随机删减方法(Dropout,DropEdge,DropNode)都会减小图上的信息多样性。而DropMessage在特定的随机删减率下,图上的信息多样性将在期望上不会降低。
从信息论的角度来讲,DropMessage保留了更多的图上的信息,它理应是其他随机删减方法性能的上限。
3
实验分析
本文在多个数据上进行了性能实验,结果表明DropMessage相比于其他方法有着一定的性能提升。
在过拟合实验上的结果也表明DropMessage能够更好地避免模型产生过拟合。
过拟合分析
4
总结
本文提出了一种基于message-passing图神经网络的随机删减方法——DropMessage。现有的随机方法都可以看成是DropMessage的特殊形式。相比于现有方法,DropMessage还有收敛速度快,训练过程稳定和保留更多信息的优势。作者认为,应用DropMessage可以普适地提升基于message-passing的图神经网络的性能。
提
醒
论文链接:https://arxiv.org/abs/2204.10037
代码链接:https://github.com/zjunet/DropMessage
[1] Rong, Y.; Huang, W.; Xu, T.; and Huang, J. 2019. Dropedge: Towards deep graph convolutional networks on node classification. In ICLR.
[2] Feng, W.; Zhang, J.; Dong, Y.; Han, Y.; Luan, H.; Xu, Q.; Yang, Q.; Kharlamov, E.; and Tang, J. 2020. Graph Random Neural Networks for Semi-Supervised Learning on Graphs. NeurIPS, 33.
[3] Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; and Salakhutdinov, R. 2012. Improving neural networks by preventing co-adaptation of feature detectors. ArXiv, abs/1207.0580.
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾450场活动,超500万人次观看
我知道你
在看
哦
~
点击 阅读原文 查看回放!