阅读笔记Graph Representation Learning--Chapter8

系列文章目录

阅读笔记Graph Representation Learning–Chapter2

阅读笔记Graph Representation Learning–Chapter3

阅读笔记Graph Representation Learning–Chapter4

阅读笔记Graph Representation Learning–Chapter5

阅读笔记Graph Representation Learning–Chapter6

阅读笔记Graph Representation Learning–Chapter8

概览

本书的前几部分介绍了各种各样学习图表示的方法。在本书的最后一部分,我们将讨论一个不同但紧密相关的任务:图的生成问题。图生成任务的目标是建立一个能够生成真实图结构的模型。在某些方面,我们可以把这个图生成问题看作是图嵌入问题的镜像。当然,简单地生成一个任意的图并不一定那么具有挑战性。例如,生成一个完全连通图或一个没有边的图是很简单的。然而,生成图的关键挑战是生成具有某些理想属性的图。正如我们将在接下来的章节中看到的,我们定义所需属性的方式以及执行图形生成的方式在不同的方法之间有很大的差异。在本章中,我们首先讨论图形生成的传统方法。这些传统方法早于大多数图表示学习的研究,甚至早于一般的机器学习研究。因此,我们将在本章中讨论的方法为我们将在第9章中介绍的基于深度学习的方法提供了背景。

8.1 Overview of Traditional Approaches

传统的图形生成方法通常包括指定某种生成过程,即定义如何创建图形中的边。在大多数情况下,我们可以将此生成过程作为一种指定存在于两个节点u和v之间的边的概率或似然**P(a[u,v]=1)**的方法。这种方法面临的挑战是制定某种既易于处理又能够生成具有非一般特性或特征的图的生成过程。可处理性非常重要,因为我们希望能够对生成的图进行采样或者分析。然而,我们也希望这些图具有一些属性,使得他们成为一个对于我们现实世界中见到的图的好模型。

8.2 Erd ̈os-R ́enyi Model

在ER模型中,我们将任何一对节点之间出现边的可能性定义为:
在这里插入图片描述
在这里插入图片描述
换句话说,ER模型简单地假设任意对节点之间出现一条边的概率等于r。ER模型因其简单而具有吸引力。要生成一个随机的ER图,我们只需选择(或采样)我们想要的节点数量,设置密度参数,然后使用方程(8.1)来生成邻接矩阵。由于边概率都是独立的,生成图的时间复杂度是O(|V|2),即邻接矩阵的大小是线性的。然而,ER模型的缺点是它不能生成非常真实的图形。特别是,在ER模型中,我们能控制的唯一属性是图的密度,因为参数在期望中等于图中的平均度。ER模型没有捕捉到图的其它性质,如度分布、群落结构的存在性、节点聚类系数和结构模体的出现。众所周知,ER模型生成的图不能反映这些更复杂的图属性的分布,这些属性在现实世界的图的结构和功能中具有重要的作用。

8.3 Stochastic Block Models

许多传统的图生成方法试图通过更好地捕获现实世界图的附加属性来改进ER模型,而ER模型忽略了这些属性。一个突出的例子是随机块模型类(SBMs),它寻求生成具有社区结构的图。在基本的SBM模型中,我们首先具体指定 γ \gamma γ 个不同的块,即 C 1 , . . . . . C γ \pmb C_1,.....\pmb C_{\gamma} CCC1,.....CCCγ,图中的节点属于块 C i \pmb C_i CCCi 的概率是 p i p_i pi,即: p i = P ( u ∈ C i ) , ∀ u ∈ V , i = 1 , . . . , γ , w h e r e , Σ i = 1 γ p i = 1 p_i=P(u∈\pmb C_i),∀u∈\mathcal V,i= 1,...,γ ,where, \Sigma_{i=1}^{\gamma} p_i=1 pi=P(uCCCi),uV,i=1,...,γ,where,Σi=1γpi=1
边的概率由一个block-to-block矩阵 P \mathbf P P定义, P ∈ [ 0 , 1 ] γ × γ \mathbf P∈[0,1]^{\gamma \times \gamma} P[0,1]γ×γ。并且,\mathbf C[i,j]代表了位于block C i \pmb C_i CCCi的节点,与位于block C j \pmb C_j CCCj中的节点两者之间有edge存在时的概率。SBM模型的生成过程如下:

  1. 对于每个节点 u ∈ V u∈\mathcal V uV,我们指定节点u属于不同block的概率为: ( p i , . . . . . , p γ ) (p_i,.....,p_\gamma) (pi,.....,pγ)
  2. 对于每一对节点: u ∈ C i u ∈ \mathcal C_i uCi v ∈ C j v ∈ \mathcal C_j vCj,他们之间存在edge的概率为: P ( A [ u , v ] = 1 ) = C [ i , j ] . P(\mathbf A[u,v]=1)=\mathbf C[i,j]. P(A[u,v]=1)=C[i,j].

SBM的关键创新在于,我们可以控制不同块内和不同块之间的边的概率,这使得我们能够生成显示社区结构的图。例如,一种常见的SBM操作是,将 C \mathbf C C矩阵的对角线都设置一个常值 α \alpha α,即 C [ i , i ] = α , i = 1 , . . . , γ \mathbf C[i,i]=\alpha,i=1,...,\gamma C[i,i]=α,i=1,...,γ,以及将非对角线元素设置为另一个常值 β < α \beta<\alpha β<α,即 C [ i , j ] = β , i , j = 1 , . . . , γ , i ≠ j \mathbf C[i,j]=\beta,i,j=1,...,\gamma,i\neq j C[i,j]=βi,j=1,...,γ,i=j。这就使得在相同社区内的节点相互连接的概率值大于在不同社区的的节点之间相互连接的概率。
上面描述的SBM模型只代表了一般SBM框架的最基本的变化。SBM框架有许多变体,包括用于二部图的方法、具有节点特征的图以及从数据推断SBM参数的方法。然而,在所有这些方法中共享的关键观点是,构建一个生成图模型的想法,该模型可以在图中捕获社区的概念。

8.4 Preferential Attachment

上一节中描述的SBM框架可以生成具有社区结构的图。然而,与简单的ER模型一样,SBM方法的局限性在于,它不能捕捉大多数真实图中存在的单个节点的结构特征。例如,在SBM模型中,社区中的所有节点都具有相同的度分布。这意味着单个群落的结构是相对同质的,因为所有的节点都具有相似的结构属性(例如相似程度和聚类系数)。然而,不幸的是,这种同质化在现实世界中是不现实的。在现实世界的图中,我们经常看到更多的异构和不同程度的分布,例如,有许多自身的度很低的节点和少量的具有很高degree的“hub”节点。
我们将介绍的第三个生成模型称为优先依附( P A PA PA)模型,试图捕捉现实世界中度分布的这一特性。
P A PA PA模型建立在假设许多现实世界的图呈现幂律度分布的基础上,这意味着节点 u u u具有度 d u d_u du的概率大致由以下等式给出( α > 1 \alpha > 1 α>1):
在这里插入图片描述
幂律分布和其他相关分布具有重尾的特性。形式上,重尾意味着极端值的概率分布趋近于零的速度要慢于指数分布。这意味着,重尾分布为在标准指数分布下,本质上“不可能”的事件分配非平凡概率质量。在度分布的情况下,这种重尾本质上意味着遇到少量具有很高度的节点的概率并非为零。直观地说,幂律度分布捕捉了现实图既有大量具有的度非常小的节点,也有少量具有的度特别大的节点。$PA $模型使用以下简单的生成过程生成具有幂律度分布的图:

  1. 首先,初始化得到一个具有 m 0 m_0 m0个节点并且这些节点全部相互连接的图。
  2. 接下来,每次迭代过程中我们向图中添加 n − m 0 n-m_0 nm0个节点,对于每个在第 t t t次迭代过程中,新添加的节点 u u u我们将它与 m m m个已经存在的节点相连( m < m 0 m<m_0 m<m0)。根据下面的概率分布,我们通过不替换抽样来选择它的m个邻居:
    在这里插入图片描述
    d v ( t ) d_v^{(t)} dv(t)表示在第 t t t次迭代过程中,节点 v v v的度; V t \mathcal V^{t} Vt表示在第 t t t次迭代之前已经添加到图中的节点的集合。 P A PA PA模型的关键思想是,将新节点与现有节点连接起来的概率与现有节点的度成正比。这意味着随着图规模的扩大,那些具有很高的度的节点将倾向于获得越来越多的邻居。可以看出,上面描述的PA模型生成了符合幂率度分布的连通图。(其中幂率分布公式中的 α = 3 \alpha=3 α=3
    P A PA PA模型一个将其与 E R ER ER S B M SBM SBM模型区别开来的重要方面就是。图的生成过程是自回归的( a u t o r e g r e s s i v e \mathcal autoregressive autoregressive)。PA模型依赖于一种迭代的方法,其中迭代到 t t t处时边的概率取决于步骤t-1添加的边。自回归生成的概念将在深度学习生成方法章节中再次出现。
    备注:关于实际的幂律分布在真实数据中的普遍存在着很大的争议。有令人信服的证据表明,许多所谓的幂律分布实际上更适合用对数正态分布来模拟。Clauset等人(Power-law distributions in empirical data)对此问题进行了有益的讨论和实证分析。

8.5 Traditional Applications

前面三个小结概述了三种传统的用于图生成的方法:ER 模型,SBM 模型,PA 模型。这些模型的意义在于,我们指定了生成过程或概率模型,它允许我们捕获现实世界的图的一些有用的属性,同事仍然易于处理和易于分析。从历史上看,这些传统的生成模型已用于两个关键应用程序。

  1. 为基准测试和分析任务生成合成数据。这些生成模型的第一个有用的应用是可以将它们用于生成用于基准测试和分析任务的合成图。 例如,假设您已经开发了一种社区检测算法。 可以合理地预期,您的社区检测方法应该能够推断出由SBM模型生成的图形中的基础社区。类似地,如果您设计的网络分析引擎可以缩放到非常大的图形,则可以 最好在由PA模型生成的合成图上测试您的框架,以确保您的分析引擎可以处理重尾度分布。
  2. 创建空模型。传统的图生成方法的第二个关键应用是创建空模型。假设您正在研究社交网络数据集。在分析了该网络并计算了各种统计数据(例如度分布和聚类系数)之后,您可能会问以下问题:该网络的特征有多令人惊讶?图生成模型为我们回答这个问题提供了一种精确的方法。尤其是,我们可以研究在不同生成模型下不同的图形特征的可能的程度。例如,乍看之下,社交网络中重尾度分布的出现似乎令人惊讶,但是如果我们假设数据是根据优先附加过程生成的,则实际上可以预期该属性。 一般而言,传统的图生成模型使我们能够询问可以通过简单的生成过程轻松解释哪些图特征。 从统计学的角度来看,它们为我们提供了空模型,我们可以将其用作参考点来理解现实世界的图形。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值