论文《NetInfoF Framework:Measuring and Exploiting Network Usable Information》笔记

这是一篇关于图神经网络在网络可用信息(Network Usable Information,UNI)测量和利用方面的研究论文。这篇文章提出了一个名为NetInfoF的框架,旨在评估图结构和节点特征中蕴含的信息量,并利用这些信息来解决图任务(如链接预测和节点分类)。

一作是卡内基梅隆大学的大佬,发表在2024年ICLR会议上,引用量0(太新了暂未被引用)。

ICLR会议简介:全称International Conference on Learning Representations(国际学习表征会议),深度学习顶会。

查询会议:

原文和开源代码链接:

0、核心内容

给定一个节点属性图和一个图任务(链接预测或节点分类),我们能否判断一个图神经网络(GNN)是否表现良好?更具体地说,图的结构和节点特征是否为任务携带了足够的可用信息?我们的目标是(1)开发一个快速工具来测量图结构和节点特征中有多少信息,(2)如果有足够的信息,利用这些信息来解决任务

我们提出了NETINFOF,一个包括NETINFOF_PROBENETINFOF_ACT的框架,分别用于测量和利用网络可用信息(Network Usable Information,NUI)。给定一个图数据,NETINFOF_PROBE在没有任何模型训练的情况下测量NUI,NETINFOF_ACT解决了链接预测和节点分类任务,这两个模块共享相同的主干。

综上所述,NETINFOF具有以下显著优势:(a)通用,处理链接预测和节点分类任务;(b)原理性,具有理论保证和封闭解;©有效性,得益于提出的节点相似性的调整;(d)可伸缩性,随输入大小线性缩放。

在我们精心设计的合成数据集中,NETINFOF正确地识别了NUI的真相,并且是唯一对所有图场景都具有鲁棒性的方法。应用于真实世界的数据集,与一般的GNN基线相比,NETINFOF在链接预测的12次中赢了11次。

(引自摘要)

在这里插入图片描述

图1:NETINFOF在真实数据集针对链接预测任务赢了(大部分点在直线 x = y x=y x=y上或在直线下方)

图1体现了本文方法的有效性。

1、展开研究
① 相关工作

相关工作有:信息论(information theory)、GNNs。

信息论:

随机变量之间依赖性的典型度量是互信息(mutual information)。它在顺序特征选择中广泛应用,但其精确计算困难,特别是在连续随机变量和高维数据上。

最近的研究提出了V-information的概念。然而,该定义需要一个训练的模型,获得成本昂贵,并且依赖于训练的质量。

只有少数工作研究了图中的可用信息,但在我们的问题设置中不可行,因为有三个挑战,即,我们想要的方法必须:

  1. 不需要任何模型的工作,而现有工作需要模型训练;
  2. 确定图中哪些组件是可用的,而现有工作忽略了单个组件;
  3. 可以推广到不同的图任务,而现有工作只专注于节点分类。

注:本文对组件的定义——一个图数据由多个组件构成,如图的结构和节点特征。

GNNs:

表1:与其他相关工作相比,NETINFOF匹配了所有属性。

在这里插入图片描述

② 提出问题

在本节中,我们将定义我们的问题,并回答两个重要的问题:

  1. 如何测量图中各组成部分的预测信息?
  2. 如何将图信息与任务上的性能指标联系起来?

我们发现,当一个GNN的传播表示比图结构或节点特征的信息更丰富时,它能够在任务上表现良好

③ 节点嵌入的五个组件

为了判断一个GNN是否会表现良好,我们可以分析它的节点嵌入,但它们只有在训练后才可用。因此,我们建议分析线性GNNs中衍生的节点嵌入。更具体地说,我们推导了节点嵌入的5个组成部分,它们可以表示图结构、节点特征和通过结构传播的特征的信息。

组件1:结构嵌入(C1:Structure Embedding)

结构嵌入U是邻接矩阵A的左奇异向量(Singular Vector),通过奇异值分解(Singular Value Decomposition,SVD)提取。其目的是捕获图中的社区信息。

组件2:邻域嵌入(C2:Neighborhood Embedding)

邻域嵌入R的目的是捕获节点的局部高阶邻域信息。通过模拟Personalized PageRank(PPR),我们构造了一个随机游走矩阵 A P P R A_{PPR} APPR,其中每个元素是一个节点在 k P P R − s t e p k_{PPR}-step kPPRstep步随机游走的 T T T次试验中访问另一个节点的次数。通过进行随机游走,局部高阶结构将在整个图中突出显示。为了使 A P P R A_{PPR} APPR更稀疏并加快嵌入提取速度,我们消除了只访问一次的噪声元素。通过SVD提取 A P P R A_{PPR} APPR的左奇异向量作为邻居嵌入 R R R

组件3:特征嵌入(C3:Feature Embedding)

给定原始节点特征X,我们用预处理后的节点特征 F = g ( X ) F=g(X) F=g(X)来表示特征嵌入,其中 g g g是预处理后的函数。

组件4:没有自循环的传播嵌入(C4:Propagation Embedding without Self-loop)

我们将邻接矩阵行归一化为 A r o w = D − 1 A A_{row}=D^{-1}A Arow=D1A,其中 D D D是对角度矩阵。没有自循环的特征的传播可以捕获 k r o w − s t e p k_{row}-step krowstep邻居的信息,其中 k r o w k_{row} krow是一个偶数。当结构出现异配性时,如二部图中,这对于捕获相似邻居的信息是很有用的。因此,我们有节点嵌入 P = g ( l ( A r o w 2 X ) ) P=g(l(A_{row}^2X)) P=g(l(Arow2X)),其中l是列级L2归一化,确保每个维度都有相似的尺度。

组件5:具有自循环的传播嵌入(C5:Propagation Embedding with Self-loop)

具有自循环的邻接矩阵被发现对具有同质性的图中的传播特征很有用。根据最常见的策略,我们将邻接矩阵对称地归一化为 A s y m = ( D + I ) − 1 / 2 ( A + I ) ( D + I ) − 1 / 2 A_{sym}={(D+I)}^{-1/2}(A+I){(D+I)}^{-1/2} Asym=(D+I)1/2(A+I)(D+I)1/2,其中, I I I为单位矩阵。与C4类似,我们有节点嵌入 S = g ( l ( A r o w k s y m X ) ) S=g(l(A_{row}^{k_{sym}}X)) S=g(l(ArowksymX))

**C1-C2的目标是仅用图结构捕获信息,而C4-C5的目标是捕获传播信息,这与训练后的GNN可以捕获的信息相似。**为了确保嵌入具有直观的含义,我们将 k P P R k_{PPR} kPPR k r o w k_{row} krow k s y m k_{sym} ksym的所有步数设置为2,这在大多数情况下工作得足够好。因为C1-C2采用了SVD作为它们的最后一步,嵌入维度是正交化的。对于C3-C5,我们使用主成分分析(principal component analysis,PCA)作为 g g g来减少和正交化嵌入维数,从而在训练模型时实现更快的收敛速度和更好的性能。每个组件都有相同数量的维度 d d d

④ NETINFOF_SCORE的定义和原理

接下来,我们想找到一个将图信息和任务性能指标联系起来的公式。

首先,我们推导了熵和精度之间的不等式:

在这里插入图片描述

在针对有两个随机变量的情况扩展原理1之前,我们需要一个定义:

在这里插入图片描述

我们证明了NETINFOF_SCORE为精度的下限

在这里插入图片描述

当任务中可用的信息很少时,NETINFOF_SCORE的值就接近于随机猜测。

图3表明NETINFOF_SCORE总是小于或等于精度,验证了原理2的可靠性。

在这里插入图片描述

在接下来的章节中,我们将展示如何使用我们提出的NETINFOF_PROBE来有效地计算NETINFOF_SCORE。

2、链接预测任务中的NETINFOF
① 先验知识

Hits@K是在正边和负边中排名在第K位或以上的正边的比率,这在链接预测中是首选,其中大多数真实应用都是推荐。(引自原文)

Q1:什么是Hits@K?

Hits@K是一个用于评估链接预测任务性能的指标,它衡量的是预测模型在给定的前K个预测结果中准确预测链接(或推荐)的能力。具体来说:

  • 定义:Hits@K表示在模型预测的前K个最有可能的链接中,有多少是实际存在的正链接(即在测试集或验证集中的链接)。
  • 计算方法:对于每个需要预测的目标链接(正链接),模型会生成一个预测分数,将所有链接按照分数从高到低排序。然后,检查排名前K的链接列表,计算其中包含多少个实际的正链接。
  • 评估链接预测:Hits@K通常用来评估链接预测模型的性能,特别是在推荐系统中。它关注的时模型预测的前几个结果的相关性,而不是整个预测列表的准确性。
  • 参数K:K是一个超参数,可以根据具体应用场景来设定。较小的K值意味着我们更关注模型预测的前几个最可能的连接,而较大的K值则考虑更多的预测结果。
  • 应用:在实际应用中,Hits@K可以用来评估社交网络中的好友推荐、学术网络中的论文引用预测、产品共购网络中的商品推荐等。
  • 优点:Hits@K是一个直观且易于理解的指标,它允许我们快速了解模型在最相关的预测中的表现。
  • 局限性:尽管Hits@K是一个有用的指标,但它并不提供关于模型在整个预测分布上性能的全面信息。例如,如果一个模型在前K个预测中表现良好,但在刚广泛的预测中表现不佳,Hits@K可能无法完全反映这一点。

在论文中提到的NETINFOF框架在链接预测任务上的性能评估时,就使用了Hits@K作为衡量标准之一,特别是在真实世界数据集上与其他神经网络基线模型进行比较时。

Q2:什么是正链接?什么是负链接?

在链接预测的上下文中,正链接和负链接是用于训练和评估图神经网络(GNN)或链接预测模型的两种类型的链接:

  • 正链接(Positive Links)
    • 正链接是指在图中实际存在的关系或连接。
    • 在训练链接预测模型时,正链接用作正面示例,模型需要学习如何预测这些链接的存在。
    • 在评估链接预测模型时,正链接是指那些我们希望模型能够正确预测的链接。
  • 负链接(Negative Links)
    • 负链接是指图中不存在的关系或连接,即假想的或随机生成的链接。
    • 在链接预测中,负链接通常用于模拟那些不应该存在连接的节点对,作为负面示例。
    • 模型需要能够区分正链接和负链接,从而提高预测的准确性。

在链接预测任务中,模型通常首先在包含正链接和负链接的训练集上进行训练,然后在包含未见过的正链接和相应数量的负链接的验证集或测试集上进行评估。

为什么使用负链接:

  • 对比学习:通过同时提供正链接和负链接,模型可以学习区分存在和不存在的连接,从而提高其预测能力。
  • 评估性能:负链接允许评估模型的性能,通过检查模型在多大程度上能够正确地识别出不存在的连接。
  • 防止过拟合:在训练过程中使用负链接可以帮助模型泛化,而不是仅仅记住训练集中的链接。

在NETINFOF框架中,正链接和负链接被用来评估和优化模型,以便更好地执行链接预测任务。

Hits@K指标在评估时会考虑模型预测的正链接在前K个预测结果中的排名,而负链接则用于调整模型以减少对不存在链接的误判。

② 节点相似性的调整

为了解决线性GNNs在链接预测上的局限性,正确度量节点间的相似性至关重要。我们将余弦相似性作为度量,其值在0到1之间归一化。通过对每个节点嵌入 z 1 × d z_{1×d} z1×d进行L2归一化,余弦相似度降低为一个简单的点积 z i ⋅ z j z_{i}·z_{j} zizj。但是,即使节点 i i i和节点 j j j由一条边连接,如果它们被期望有不同的嵌入(例如,二部图中的结构嵌入),也可能会导致较低的值。因此,在点积之前,我们提出使用兼容性矩阵(compatibility matrix) H d × d H_{d×d} Hd×d来转换其中一个嵌入,并将节点相似度函数改写为 z i H z j T z_{i}Hz_{j}^T ziHzjT

兼容性矩阵 H H H表示该图的特征:如果图显示同质性, H H H几乎是对角线的;如果表现为异配性, H H H是非对角线的。在信念传播(BP)中,通常假设它来处理节点类之间的相互关系。在我们的例子中, H H H表示节点嵌入的维数之间的相互关系。通过最大化由边连接的节点的相似性, H H H可以用以下引理来估计:

在这里插入图片描述

通过多目标线性回归,可以有效地解决该优化问题。然而,这种对 H H H的估计没有考虑到负边,在某些复杂的情况下,这可能会意外地增加负边的相似性。这损害了性能,特别是在评估Hits@K时。因此,基于引理1,我们提出了一种改进的估计值 H ∗ H* H,它进一步最小化了由采样的负边连接的节点的相似性:

在这里插入图片描述

③ 用于测量NUI的NETINFOF_PROBE

基于引理2,我们提出了NETINFOF_PROBE来计算NETINFOF_SCORE,而不需要精确地计算高维变量的条件熵。通过对负边进行采样,链接预测可以看作是一个二值分类问题。对于嵌入的每个组成部分,NETINFOF_PROBE评估其对应的 H ∗ H* H,并离散调整正负边的节点相似性。为了避免过拟合,我们将 k k k-bins离散器与训练边的相似性进行拟合,并将验证边之一离散为 k k k个箱子。然后,就可以很容易地在两个分类变量之间计算出NETINFOF_SCORE。

④ 利用UNI的NETINFOF_ACT

为了解决链接预测问题,NETINFOF_ACT与NETINFOF_PROBE共享相同的派生节点嵌入,并使用一个跟在嵌入的Hadamard积之后的链接预测器。我们用 H ∗ H* H对边的一侧的嵌入进行变换,以处理异配性嵌入,更好地分离负边中的节点。通过连接所有组件,对预测器的输入如下:

在这里插入图片描述

在所有的选择中,我们使用LogitReg作为其可扩展性和可解释性的预测器。如果存在的话,我们通过采用稀疏群LASSO来抑制无用分量的特征选择。NETINFOF_ACT的时间复杂度为:

在这里插入图片描述

3、节点分类任务中的NETINFOF

在本节中,我们将展示如何将NETINFOF推广到节点分类任务中。与链接预测相比,节点分类不依赖于节点相似性,不需要兼容性矩阵。

① 用于测量NUI的NETINFOF_PROBE

为了有效地计算NETINFOF_SCORE,我们提出通过聚类的方法为节点分配标签。这一想法是基于良好的节点分类嵌入可以很容易地通过聚类进行分割的直觉。在聚类方法中,我们使用 k k k-means算法,因为它速度快。我们将嵌入的每个组件聚类并计算NETINFOF_SCORE,其中 k ≥ c k≥c kc。为了确保聚类稳定进行,对嵌入进行了行L2归一化。

② 利用UNI的NETINFOF_ACT

为了解决节点分类问题,我们再次将不同组件的嵌入连接起来,分类器的输入如下:

在这里插入图片描述

其中 l l l是列L2归一化。与链接预测中的NETINFOF_ACT相似,我使用LogitReg作为分类器,采用稀疏群LASSO进行正则化。

4、合成数据集上的实验

论文的第六部分描述了作者为了验证NETINFOF框架的鲁棒性而精心设计的合成数据集以及在这些数据集上进行的实验。这些合成数据集被用来进行全面的合理性检查,确保NETINFOF能够适应各种可能的图场景。

① 链接预测的设计
  • 作者将节点分为多个组以模拟图中通常存在的多个社区。
  • 设计了不同的节点特征X和图结构A的场景,包括随机特征、全局相关特征和局部相关特征,以及对角和非对角的图结构。
  • 这些场景的交叉乘积涵盖了现实世界中的所有可能性。

在这里插入图片描述

② 节点分类的设计
  • 保持与连接预测相同的场景设置,但使用作者在附录D.1中描述的图生成器。
③ 观察结果
  • 在链接预测方面,NETINFOF在所有GNN基线模型中获得了最高的平均排名,并且是唯一能够处理所有场景的方法。
  • 在节点分类方面,NETINFOF_SCORE与测试准确率高度相关,表明NETINFOF能够正确识别出在各种场景下网络可用信息(NUI)的真实情况。
④ 实验结果
  • 提供了在合成数据集上进行链接预测和节点分类任务时,NETINFOF与其他GNN基线模型的比较结果。

  • 在这里插入图片描述

  • 展示了NETINFOF_SCORE与测试性能(如Hits@100和测试准确率)之间的关系,证明了NETINFOF_SCORE与实际性能高度相关。

  • 在这里插入图片描述

⑤ 结论

NETINFOF在合成数据集上的表现证明了其在不同图场景下的鲁棒性,并且能够正确地识别出NUI的真实情况。

5、真实世界数据集上的实验

论文第七部分涉及了对NETINFOF框架在真实世界数据集上的应用和性能评估的实验。这部分旨在回答几个研究问题(RQs),并验证NETNFOF框架的有效性、可扩展性以及设计选择的必要性。

① 研究问题(RQs)

RQ1:有效性 - NETINFOF在真实世界图数据集上表现如何?

RQ2:可扩展性 - NETINFOF是否能够随着输入大小线性扩展?

RQ3:消融研究 - NETINFOF中的所有设计选择是否都是必要的?

② 有效性

在这里插入图片描述

在OGB(Open Graph Benchmark)数据集上的实验也证明了NETINFOF在参数数量较少的情况下胜过其他通用GNN基线模型。

在这里插入图片描述

③ 可扩展性

作者展示了边数娱链接预测运行时间的关系图,证明NETINFOF的运行时间与边数呈线性关系,展示了其可扩展性。

在这里插入图片描述

④ 消融实验

为了证明NETINFOF中设计选择的必要性,作者进行了消融实验,包括没有兼容性矩阵(w/o CM)和只有未针对负边优化的兼容性矩阵 H H H(w/ only H H H)的NETINFOF模型。实验结果显示,当同时使用这些设计选择时,NETINFOF的性能最佳。

在这里插入图片描述

6、参考资料
  • kimi:https://kimi.moonshot.cn/
  • 10
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值