因果推理相关的图神经网络研究

本文介绍两篇因果推理相关的图神经网络研究工作。

一、OOD推荐系统下的因果表征学习

本文介绍了什么是推荐系统中的Out-of-Distribution(OOD)问题,并从因果的角度提出了一种解决OOD问题的表示学习方式。

文章链接:https://dl.acm.org/doi/pdf/10.1145/3485447.3512251

1 简介

现代推荐系统的用户表征都是从其历史交互中学习出来的,这就存在着用户表征变化带来的问题,历史交互会将过时的信息注入到与最新的用户特征相冲突的表示中,从而导致不恰当的推荐。如下图所示,在IID环境下,左边这位女士处于未怀孕的状态,此时她在系统中的点击是鞋子或者衣服等商品。但在OOD的环境下,这位女士变成了怀孕的状态,此时之前的历史交互所学到的表征不适用于OOD环境下的推荐。在这项工作中,作者考虑了在用户特征发生变化的Out-Of-Distribution (OOD) 环境中的推荐问题,并为表征学习设定了额外的两个目标:强大的OOD泛化能力以及快速的OOD适应能力。这项工作从因果关系的角度制定和解决了这两个问题。即将用户的特征转移表述为一种干预,而OOD推荐则是干预后的交互概率推测。

891c97f7937efeaf31a20a59c9b930ae.png

2 符号声明与问题定义

2.1 符号声明

8e1dfde73f1c25c5399a8d9d14300948.png

图2中的  表示的可观测到的用户features,如年龄和收入等,  表示不可观测到的用户features,如爱好等。  、  表示潜在的用户倾向,其中  由用户特征  、  共同决定,  仅由  决定。D表示的是点击或者购买等用户的交互信息。

2.2 问题定义

基于OOD环境下的推荐系统,文章中定义了两个问题:1. OOD generalization:当干预已知,即已经知道干预后的用户的交互数据不可用时,模型的泛化能力。2. Fast adaptation:我们假设很少一部分干预后的用户交互数据可以从OOD环境中收集到,并评估模型对OOD环境的适应速度和准确性。

3 方法

在推荐系统中,我们希望通过已有数据最大化如下对数似然估计,即利用用户的表征来预测他想购买的商品。但是由于公式2中e2不可知,最大化公式2中的对数似然较难。文章中利用变分推断得到公式2的证据下界(ELBO),如公式3所示。

9b98551b0a1c4d66cfb501fdfcc0672b.png

2911aa51aa16452b2631c1337ef72830.png

最大化公式3中ELBO则可以提高公式2的上界,为了计算公式3中的ELBO,文章中采用了encoder网络和decoder网络去拟合公式3中的and。

f3e463ec1fd2ce3a88938e8b269b0353.png

首先利用公式4拟合,即给定已知的交互数据d和用户表征,得到不可观测的用户表征。

f9c29bb40feb53110334857eff74a259.png

再利用公式5(decoder network),来拟合公式中的,由于积分计算起来较为复杂,文中采用公式7中的蒙特卡洛采样来近似。

4511e253453b9e947f2af43ea4a2dce0.png

16a22d0e7790f7cf63eb8cdcbab56ab4.png

21f40ad54a869f8647c1064e8e61fc25.png

在训练阶段,可以利用用户,和历史交互信息 d,以及target 来进行训练,从而得到figure 4中四个MLP的参数。

在OOD环境下的测试阶段,因为 的采样和历史信息 有关, 这也会可能将一些IID场景下的过时信息传递给下游的  。因此, 为了避免IID数据带来的影响, 作者采用 𝑑𝑜(𝐷=0)  对d进行干预(图4 (b)) ,使得生成的下游不受过时信息的影响。由于生成的  是在的情况下得到的,对对推断保留了原始的一些有用的信息。最后结合二者得到最终的推荐交互。

ba26ecbe27b378f529977e18e5b75fd9.png

4 实验

作者在生成数据集和真实数据集下做了如下实验,可以看到作者的方法COR虽然在IID场景下效果比baseline差,但是在OOD环境下表现比baseline提升较为明显。

39b094c7c8833c38d6075103f4bb89dd.png

当很少一部分干预后的用户交互数据可以从OOD环境中收集到时,可以看到作者的方法在Fast adaptation评估中也有提升。

bf9207e0f531ec4c34bb7c17de649a7b.png

二、学习图上因果不变表征分布外泛化

本文利用了因果不变性的方法来解决图上的OOD问题

文章链接:https://openreview.net/pdf?id=A6AFK_JwrIW

1 简介

目前图神经网络假设训练图和测试图来自相同的分布,然而在现实中经常被违反这一假设,出现训练和测试分布的不匹配的情况,即分布偏移。图神经网络难以在这种分布外(OOD)泛化问题上取得很好的效果。尽管OOD问题在欧几里得数据上的泛化取得了比较大的成功,而这些在欧式数据上的方法大多用的是因果关系的不变性原则,该原则利用了不变的因果机制(ICM)假设。但是由于图上的复杂性,存在着几个新的挑战,禁止直接采用该原则。首先,图上的分布偏移更加复杂,它包括属性层面和拓扑层面上的分布偏移;其次,每一种偏移与标签的虚假相关形式可能不一样;此外,由于图的抽象性,环境信息更加难以获取。为了解决上述问题,本文提出了 "因果启发的不变图学习"(CIGA),具体来说,本文建立了三个结构因果模型(SCM)来描述图上可能发生的分布转移,然后将不变性原则推广到图上,用于OOD泛化。

2 通过因果的视角看图上的OOD泛化

2.1 问题定义

本文聚焦于图分类上的OOD问题,举个例子,GNN需要对图形是否包含 "房子 "或 "五边形环 "子图进行分类,其中颜色代表节点特征。然而,训练数据中的分布变化存在于结构层面(从左到右:"房子 "大多与六边形同时出现)、属性层面(从上到下:如果图形包含 "房子",节点大多被染成绿色,如果图形包含 "五边形环",则被染成蓝色)和图形大小。ERM可能会将有六边形或大部分节点为绿色的图预测成house,而无法捕捉到拓扑结构的不变性。

07ba8662ec5846ebe4cb8e8fa4ae6374.png

2.2 图生成过程

3c63ea6c9bb778df343f53c4b3d56ca2.png

(1)本文假设一张图的生成过程是由两个部分和三个函数组成(Assumption 2.1),C表示图上不变的部分、S表示图上变化的部分。继承了C中不受环境E影响不变的信息,表示G中会随着E的变化而变化的部分,其他三个f表示数据的生成函数。(2)遵从以前的工作,本文根据C和S之间潜在的关系,得到了完全信息不变性的SCM(FIIF,图2(b))和部分信息不变性的SCM(PIIF,图2(c)),即FIIF表示C中包含了所有与标签Y有关的信息,PIIF表示C中只包含了标签Y的部分信息。

2cf589090490d4842aaab9bf1ac33d53.png

d1fd5faed67b93255f7d366de456dd2a.png

3 方法

为了使GNN能够学习从G中提取关于C的信息,本文提出了CIGA框架,明确地与假设2.1中的两个因果机制  和对齐,即优化下面的公式1:

, s.t. ,

最大化互信息相当于最小化损失函数,同时让得到的  与环境独立等同于通过函数提取出与图上环境无关、不变的部分。

但是由于环境的不可用性,不能直接计算环境与子图之间相互独立,这使得的识别更具挑战性。为了缓解这个问题,我们需要找到并将的其他性质转化为一些可微调的等价目标,以满足独立约束的目标。假设和是在同一个子图c在不同环境下的两个图,和表示两个在不同环境下有很高互信息的两个图,例如  。同时假设为与环境相同标签不同的一个图,那么我们需要满足  。例如,假设上面的房子连接六边形环为,房子连接田字型为,五边形环连接田字型为,那么我们尽可能让房子连接六边形环的图与房子连接田字型的图互信息最大化,让房子连接田字型和五边形环连接田字型互信息最小化,根据的性质可以得到如下优化目标:

我们假设所有的子图的大小是相等的,即,这样我们可以强制预测得到的子图节点数少于。在实际中,由于变量C时不可知的,由于C和Y在FIIF和PIIF SCMs中都存在着因果关系,所以我们可以利用Y来代替上述公式中的C。并且如果我们最大化和,那么就会自动的被最小化,因为若没有被最小化,则所有的类别会变得不可区分。结合上述分析,我们可以将3.2的优化目标转化成下述目标:

bf072fcb111bf831f2a4e075e37f61f6.png

由于中需要满足这个限制,我们提出了,该优化目标不需要满足此限制。在中,我们进一步讨论的性质,在在FIIF和PIIF SCMs中,都有可能包含Y的信息,当最大化和的过程中,并不会影响该优化过程,但是这样会损失掉中的一些信息,故在中加入了最大化与的互信息这一项,即

8ce2cdbb142c8e61d454ee13a81d6b9e.png

其中表示训练集中与有相同标签的图。

4 实验

首先作者在生成数据集不同的偏差下进行实验,对比的baseline包括一些OOD的方法以及非OOD的方法,可以看到 的效果提升比较明显。

e7eacde56a8913f99350d0a17622606f.png

此外作者还在真实数据上与baseline进行了对比,可以看到它们的方法效果不错。

2e01b87b8392d56d125dbcdc0cbb51d5.png

三、总结

这两个工作都是将因果推理运用到图神经网络当中,同时解决的都是OOD问题,第一篇利用了最大化ELBO来对提高极大似然的下界,第二篇是从互信息的角度来分析并解决图上的OOD问题。从这两篇工作可以看出,将因果推理运用到图神经网络中往往是利用它去约束学习GNN的过程,使得学到的GNN能够更好的解决相应的问题。

本期责任编辑:杨成

本期编辑:刘佳玮


北邮 GAMMA Lab 公众号

主编:石川

责任编辑:王啸、杨成

编辑:刘佳玮

长按下图并点击“识别图中二维码

即可关注北邮 GAMMA Lab 公众号

67bec92359b7fd91e8385e566171e38c.png

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值