GNN Pooling(八)：STRUCTPOOL via CRF，ICLR2020

最新推荐文章于 2022-07-23 17:28:55 发布

五月的echo

最新推荐文章于 2022-07-23 17:28:55 发布

阅读量733

点赞数

分类专栏： GNN Pooling 文章标签：图神经网络图池化

本文链接：https://blog.csdn.net/qq_36618444/article/details/107423906

版权

GNN Pooling 专栏收录该内容

11 篇文章 23 订阅

订阅专栏

本文的作者来自Texas A&M University。大多数现有的图池技术没有显式地考虑图的结构信息，本文将图池看作是一个节点聚类问题，需要学习一个聚类分配矩阵。我们建议将其表示为一个结构化预测问题，并使用条件随机场来捕获不同节点分配之间的关系。使用CRF的直觉是这样的： 给定节点的分配应该依赖于输入节点特性和其他节点的分配，而CRF正是通过无向图模型捕获不同节点分配之间的这种高阶结构关系。

图模型

在这里插入图片描述
所谓概率图模型，就是由图表示的概率分布。无向图模型之所以被称为马尔科夫随机场，是因为其联合概率分布需要满足成对马尔科夫性，或者局部马尔科夫性，或者全局马尔科夫性。这三个马尔科夫性是等价的。

三个马尔科夫性

成对马尔科夫性
在这里插入图片描述
假设 $Y_u$ 和 $Y_v$ 是不相邻的两个节点， $Y_o$ 是所有其他的节点，那么成对马尔科夫性则是说：给定 $Y_o$ 则 $Y_u$ 和 $Y_v$ 相互独立： $P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$
局部马尔科夫性

$Y_v$ 是任一节点，给定 $Y_v$ 的所有邻居 $Y_w$ ，则 $Y_o$ 和 $Y_v$ 相互独立： $P(Y_u,Y_O|Y_W)=P(Y_u|Y_W)P(Y_O|Y_W)$
全局马尔科夫性
在这里插入图片描述
设节点集合 A 、B 是在无向图 G 中被节点集合 C 分开的任意节点集合，全局马尔可夫性指：给定 $Y_C$ 的条件下， $Y_A$ 和 $Y_B$ 条件独立。

联合概率分布

整个概率无向图模型的联合概率分布 $P (Y)$ 可以用最大团上的随机变量的函数的乘积来表示，称为概率无向图的因子分解：
在这里插入图片描述
其中，、 $ψ_C(Y_C)$ 表示最大团 $C$ 的势函数（potential function）， $Y$ 指整个图的所有点集。 $ψ_C(Y_C)$ 这个函数是需要人为给出的，势函数严格要求为正数，所以一般用指数函数来写：

CRF

条件随机场是给定一组变量X的条件下输出另一组随机变量Y的马尔科夫随机场。我也按照大多数介绍的那样，用线性条件随机场举例。
在这里插入图片描述
$w - v$ 表示和v相邻的所有结点，也就是说，在给定X的大前提下， $Y_v$ 只由其相邻的结点w决定。对于链来说，这个相邻节点就是v的左右两个节点，而最大团则是相邻的两个节点。因此，线性CRF写成如下的表达形式：
在这里插入图片描述
其中 $Z (x)$ 表示归一化系数，是对 $y$ 所有可能取值的求和。 $y_{i-1}$ 和 $y_i$ 则表示一个最大团，则 $t_k$ 定义了转移特征， $s_l$ 定义了状态特征， $i$ 表示当前节点， $x$ 为给定的条件，需要学习的参数为 $λ_k$ 和 $μ_l$ 。一般来说，特征函数的取值为 1 或 0 ，当满足规定好的特征条件时取值为 1 ，否则为 0 。

以词性标注为例

词性标注是CRF最常解决的问题，我们在具体的任务中理解上述线性CRF的公式含义。首先看状态特征 $s_l$ ，其由三个输入参数决定： $y_i$ 表示当前的单词的词性（名词动词啦等等）， $x$ 为给定的条件，这个一般是处理好的单词的embedding，比如在LSTM+CRF进行词性标注时， $x$ 就表示LSTM的hidden state， $i$ 表示当前的位置，状态特征只由单词本身的特征决定。 $t_k$ 是转移特征，因此需要 $y_{i-1}$ 与 $y_i$ 两个参数，表明前一个单词是一个特定词性下对后一个单词的影响。尽管 $t_k$ 与 $s_l$ 只取值0,1，但是通过学习参数 $λ_k$ 和 $μ_l$ 就可以做到调节其概率。

STRUCTPOOL

终于说到本文的模型了。
对于原始图G中的任意节点，其聚类分配不仅要依赖于节点特征矩阵X，还要依赖于其他节点的聚类分配。形式上定义了 $Y=[Y_1,...Y_n]$ ，其中 $Y_i∈[1...k]$ ，表明每个结点被分配到哪个cluster。而 $X$ 被视为全局观测特征，然后就可以通过吉布斯分布去定义CRF：
在这里插入图片描述
其中， $C$ 就是clique， $C_{G^{'}}$ 是图中所有clique的集合， $Z (X)$ 是归一化的系数， $ψ_c(·)$ 是势函数。吉布斯能量可以写成：

这个可以理解为是上一个公式括号里负号之后的内容，所以整个目标是求解 $P (Y ∣ X)$ 最大的过程，也就是求 $E (y ∣ X)$ 最小的过程。对于每个团c内部的能量，本文考虑到了两个部分：一是每个节点被分配给一个团的能量（unary energy），还有同一个团内任意两个节点之间可达性的能量（pairwise energy），这个可达性本质上就是对图拓扑结构的一种具象化表示。总体的能量写成：
在这里插入图片描述
其中， $ψ_u(y_i)$ 表示结点i被分配给cluster y的能量， $ψ_p(y_i,y_j)$ 节点对被一同分配给同一个cluster的能量，这个势函数用注意力机制进行计算。 $a^l_{i,j}$ 则表示节点i,j在图中 $l - h o p$ 可达。使用注意力机制计算的pairwise energy表示为：
在这里插入图片描述
$μ(y_i,y_j)$ a compatibility function that models the compatibility between different assignment pairs（这句话我就不翻译了）。总体的算法流程如下：

更直观的可视化为：

实验

在这里插入图片描述
在统一架构下比较不同的池化方法：

除了上述两组基础的试验外，还对一些模型细节进行了探究：

COMPUTATIONAL COMPLEXITY。计算复杂度是这种需要划分clique的池化需要考虑的重要问题，因为这种方法的时间复杂度往往都比较高。本文也给出了计算复杂度，近似为 $O((m+i)n^3)$ ，其中 $m$ 是迭代次数 $i$ 是为了获取unary energy所需的GCN的层数。下表探究了m的次数对分类结果的影响：
分类的性能当然随着m的增加而增加，一般到5是一个很好的平衡点。STRUCTPOOL对于m = 1、m = 3、m = 5分别需要0.049秒、0.053秒和0.058秒，而对应的DiffPool每个图的平均池化时间则为0.042。
EFFECTS OF TOPOLOGY INFORMATION。上文也提到了 $l$ 是引入拓扑结构的关键。 $l$ 越大也就代表clique内部的关系越稠密，模型考虑了更多的成对关系，因此获得更好的性能是合理的。但是对于IMDB-B这种在one-hop下就可以学习到很多有用信息的数据集，多跳反而对结果的影响不大。
GRAPH ISOMORPHISM NETWORKS WITH STRUCTPOOL。和另外一个模型Graph Isomorphism Networks（GIN）进行比较，证实了算法结果的更优。

References

https://www.cnblogs.com/Determined22/p/6915730.html
https://www.bilibili.com/video/BV11E411n7rE？from=search&seid=29122248621740294
https://blog.csdn.net/qq_35883464/article/details/99852915

五月的echo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
GNN Pooling(八)：STRUCTPOOL via CRF，ICLR2020

目录图模型三个马尔科夫性联合概率分布CRFReferences本文的作者来自Texas A&M University。大多数现有的图池技术没有显式地考虑图的结构信息，本文将图池看作是一个节点聚类问题，需要学习一个聚类分配矩阵。我们建议将其表示为一个结构化预测问题，并使用条件随机场来捕获不同节点分配之间的关系。使用CRF的直觉是这样的：给定节点的分配应该依赖于输入节点特性和其他节点的分配，而CRF正是通过无向图模型捕获不同节点分配之间的这种高阶结构关系。话说我一直傻傻分不太清楚无向图有向图概率图这
复制链接

扫一扫