论文解读 | AAAI 2024 : 图神经网络中的因果关系学习研究

点击蓝字

1101bde2f068efa11b0e0ac1aeb31810.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日,中国科学院软件研究所天基综合信息系统重点实验室研究团队的论文“Rethinking Causal Relationships Learning in Graph Neural Networks”被人工智能领域顶级学术会议AAAI(Association for the Advancement of Artificial Intelligence,CCF推荐A类会议,Core Conference Ranking推荐A*类会议,H-5指数176,Impact Score 31.1,近五年平均录用率为20%左右)接收,本文将对该论文做详细的解读。论文具体信息如下:

论文题目:

Rethinking Causal Relationships Learning in Graph Neural Networks

作者:高航*,姚成钰*,李江梦,司凌宇,靳毅凡,吴凤鸽,郑昌文,刘华平

通讯作者:吴凤鸽


论文地址:

http://arxiv.org/abs/2312.09613

代码地址:

https://github.com/yaoyao-yaoyao-cell/CRCG

01

概述

图神经网络( Graph Neural Networks,GNNs )通过有效地建模图结构数据中复杂的相互关系来展示其重要性。为了提高GNNs的可信性和鲁棒性,增强其捕捉因果关系的能力变得格外重要。然而,尽管最近的研究进展从因果学习的角度增强了GNNs,但专门针对GNNs的因果建模能力进行深入分析仍然是一个尚未解决的问题。为了从因果学习的角度全面分析各种GNN模型,研究团队构建了一个人工合成的数据集,其中数据和标签之间的因果关系已知且可控,通过理论基础分析进一步保证了生成数据的合理性。同时,从使用数据集进行的分析中引入一个轻量级且高适应性的GNN模块,旨在加强GNN在各种任务中的因果学习能力,通过在合成数据集和其他真实数据集上进行的一系列实验,从实证上验证了所提模块的有效性。

02

动机与分析

这项研究旨在解决图神经网络(GNN)在处理图数据时的混杂因素问题。由于图数据复杂,手动理解混杂因素对GNN训练的影响是个很大的挑战。为深入研究,研究团队创造了因果关系可配置图(CRCG)数据集,生成明确可识别和可控因果关系的复杂图数据。通过对CRCG的全面研究进行了一系列实验。首先比较了因果增强GNN和传统GNN在不同场景下的性能,结果表明在存在混杂因素的图数据中,因果增强GNN有效。然而,在无混杂因素情况下传统GNN性能甚至优于因果增强GNN。随着混杂因素与因果因素相关程度的变化,因果增强GNN的优势逐渐减弱。此外,当前的GNN因果增强方法主要通过应用基于先验的操作来操纵GNN,减轻混杂因素对模型输出的影响。然而,这些操作可能受数据集变化影响,因此研究团队从概率、数据量、显著度三个层面进行实验来实证分析混杂因素的影响,结果(如图1所示)证明混杂因素与因果因素之间的概率关系是影响因果增强GNN算法有效性的首要因素。

76b4cd58002a6c7fde99fc192646f8be.png

071b2edca3d0538748473590333b7cc7.png

9d86e8e1a6db37b03c592dc6cd2694fb.png

图1 CRCG的实验结果图

03

方法

基于上述动机,研究团队提出了一种新方法,即直接操作模型输出表示,最小化混杂因素对模型输出的影响。通过简化模型,减少了引入额外神经网络的需求,使模型更灵活、可调,可适应各种数据集。同时,引入了一个轻量级模块,称为基于表示的因果关系增强模块( Representation-based Causality Augmentation Module,R-CAM ),以优化GNNs对因果关系的建模能力。R-CAM以即插即用的方式运行,可以无缝地应用到各种GNN模型中。R-CAM通过强调与标签存在因果联系的特征,而忽略与标签不存在因果关系的特征,迫使GNN模型获取更多的因果知识。在R -CAM中引入的先验知识可以很容易地裁剪以适应不同的数据集。

04

实验

在实验部分,研究团队采用ERM、ASAP 作为传统GNNs的基准,选择DIR 、CIGA 、DISC和RCGRL作为因果增强GNNs的基准,将所提出的模块(R-CAM)叠加到上述六个算法的GNN模型中,并在六种人工合成数据集和真实数据集上进行了前后对比实验,其结果如下:

edc0da4a456929a512b0d77360e42892.png图2 对比实验结果图

由图2可知,大多数算法在跨数据集上表现出不同程度的精度提升,验证了R - CAM在强调数据中的因果信息方面的有效性。此外,通过进一步调整ERM和DIR算法在不同数据集上的相似度阈值τ来评估R - CAM。如图3所示,在不同阈值的数据集上,最高精度不同,这说明通过调整超参数τ,研究团队构建的模型可以适应不同的数据集。

8fbc901f1efc2072c2b7f35418913ad9.png

图3 参数实验结果图

往期精彩文章推荐

19735768c37c55160e801e67c40008a7.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

7b192251d48b35c4398901e9687881d6.png

我知道你

在看

~

1833851f3c1d8af09dd955a85db67ca2.gif

点击 阅读原文 观看回放!

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值