论文笔记:Structural Entropy Based Graph Structure Learning for Node Classification (AAAI 2024)

关键词:图结构学习;结构熵

想法

  • 动机

    • 图信息瓶颈(GIB, Graph Information Bottleneck):GSL的一个关键挑战是如何约束信息流从基本视图到最终视图,以便为下游任务学习最优图结构。根据GIB,最优结构既要包含足够的分类信息,又要消除噪声,也称为最小充分结构。采用GIB通过最大化节点嵌入与标签之间的互信息,同时最小化节点嵌入与原始图之间的互信息来约束信息流

      在这里插入图片描述

      I ( Z ; Y ) I(Z;Y) I(Z;Y)用分类损失来优化。而 m a x Z I ( Z ; G ) ⇔ m i n G s H 1 ( G s ) max_{Z}I(Z;G)\Leftrightarrow min_{G_s}H^1(G_s) maxZI(Z;G)minGsH1(Gs)。其中 H 1 ( G s ) H^1(G_s) H1(Gs)表示一维结构熵。则 m i n G s H 1 ( G s ) min_{G_s}H^1(G_s) minGsH1(Gs)​表示生成一个增强图,它包含足够的节点分类信息,同时尽可能减少其不确定性(即冗余信息或噪声)。

    • 基于GIB的紧致图结构:

      在这里插入图片描述

      训练一个编码器,使节点嵌入 Z Z Z、标签 Y L Y_L YL G s G_s Gs之间的互信息能够最大化,而Eq. 8则保证了 G s G_s Gs能够捕获最小且足够的信息用于节点分类。

    • 基于结构熵和最小编码树的紧致图结构:

      【PNG】【2024】【AAAI】Structural Entropy Based Graph Structure Learning for Node Classification【15】

      Eq. 16保证了用于节点分类的 Y L Y_L YL信息全部包含在 G e n 1 , G e n 2 , G ∗ G^1_{en},G^2_{en},G^{*} Gen1,Gen2,G中。

      Eq. 17连接了基本视图和最终视图的编码树。最大化这些编码树之间的互信息可以使这些树共享它们的社区信息,从而产生最小的充分结构。

  • 总体框架图

    在这里插入图片描述

  • 损失函数

    • 图结构增强:

      • Z 1 ← f ( X , A 1 ) Z^1\gets f(X,A^1) Z1f(X,A1),根据嵌入 Z 1 Z^1 Z1计算余弦相似度 s i j 1 = z i 1 ⋅ z j 1 ∣ z i 1 ∣ × ∣ z j 1 ∣ s^1_{ij}=\frac{z_i^1\cdot z_j^{1}}{|z_i^1|\times|z_j^{1}|} sij1=zi1×zj1zi1zj1,然后用 k k k近邻得到 k N N kNN kNN图,至于 k k k的选择使用一维结构熵 H 1 ( G k − 1 1 ) ≥ H 1 ( G k 1 ) ≤ H 1 ( G k + 1 1 ) H^1(G_{k-1}^1)\ge H^1(G_{k}^1)\le H^1(G_{k+1}^1) H1(Gk11)H1(Gk1)H1(Gk+11),选出不确定性最小的 k N N kNN kNN G k 1 G^1_{k} Gk1

        在这里插入图片描述

        类似的对于第二个视图得到增强图 G e n 1 G^1_{en} Gen1

    • 视图融合:

      • 融合参数 π i \pi_i πi:(最大的置信度越大 o i , m o_{i,m} oi,m,最大置信度和第二大置信度之间的容量越大 o i , m − o i , s m o_{i,m}-o_{i,sm} oi,moi,sm,说明模型越自信,应该给予更大的注意力)

      在这里插入图片描述

      • 节点的社区影响力 ϵ α \epsilon_{\alpha} ϵα

      在这里插入图片描述

      • 基于 π i \pi_i πi ϵ α \epsilon_{\alpha} ϵα的融合策略:

        在这里插入图片描述

        在这里插入图片描述

    • 训练目标:

      • 计算编码树各节点的嵌入:(根据结构熵计算权重,对孩子节点的嵌入进行加权和)

        在这里插入图片描述

      • 通过 m i n L h c ( Z ; T ) min\mathcal{L}_{hc}(Z;\mathcal{T}) minLhc(Z;T)最大化互信息:

        在这里插入图片描述

      • 最大化嵌入 Z Z Z和标签 Y L Y_L YL的互信息,最大化嵌入 Z Z Z和编码树 T \mathcal{T} T的互信息:

        在这里插入图片描述

        在这里插入图片描述

      • 最大化这些编码树之间的互信息:

        在这里插入图片描述

      • 总的训练损失:

        在这里插入图片描述

  • 总结

    • 对于本文中的基本视图选择:(根据CoGCL【1】)

    A d j a c e n c y   m a t r i x   ( A ) D i f f u s i o n   m a t r i x   ( S ) K N N   g r a p h   ( K ) S u b g r a p h   ( A s u b ) Adjacency\ matrix\ (A)\\Diffusion\ matrix\ (S)\\KNN\ graph\ (K)\\Subgraph\ (A_{sub}) Adjacency matrix (A)Diffusion matrix (S)KNN graph (K)Subgraph (Asub)

    【1】【2022】【WWW】Compact Graph Structure Learning via Mutual Information Compression

    • 结构熵:

      • 一维结构熵:

        在这里插入图片描述

      • K维结构熵:

        在这里插入图片描述

      • 结构熵的一些意义:

        • 一维结构熵的属性:定位熵,描述 G G G中随机游走的平稳分布。

        • 二维结构熵的属性:(小社区,平衡规模,模块化最大化,削减最小化,以及局部定位最小化)

          在这里插入图片描述

        • 关于结构熵,具体可以查看北航李昂生大佬的文章【2016】【TIT】Structural Information and Dynamical Complexity of Networks以及【2015】【Physica A】Discovering natural communities in networks。

    • 基于贪心算法的最小结构熵的编码树构建:

      • 一些定义与操作:

        • 合并操作:

          在这里插入图片描述

        • 压缩操作:

          在这里插入图片描述

        • 更新操作:

          在这里插入图片描述

      • 伪代码:

        将图中的每个节点作为一个社区,然后迭代地执行合并和压缩操作,直到更新操作可以构造一个 k k k维编码树。实际上,在合并操作中,我们贪婪地合并最大的 Δ S E i j P ( G ) \Delta SE^{\mathcal{P}}_{ij}(G) ΔSEijP(G)社区,直到没有社区满足 Δ S E i j P ( G ) > 0 \Delta SE^{\mathcal{P}}_{ij}(G)>0 ΔSEijP(G)>0,从而达到最小的结构熵。

        在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值