CS224W笔记-第三课

最新推荐文章于 2023-02-20 18:19:15 发布

infovisthinker

最新推荐文章于 2023-02-20 18:19:15 发布

阅读量1.9k

点赞数 7

分类专栏：数据挖据文章标签：深度学习机器学习神经网络数据挖掘

本文链接：https://blog.csdn.net/infovisthinker/article/details/104563033

版权

课程3——图的组成模块和结构性质

课程三主要是讲解了图的组成部分的定义，这些部分的性质，以及由此产生的对图的结构化的定性的影响。主要内容包括：

子图(subgraph)及其性质；
Motif及其性质，以及Configuration Model作为比对模型；
Graphlet及其性质；
检测Motif和Graphlet的方法，及其应用；
节点的结构角色(Structure Role)和社区(Community)。

这节课里的一些名词没有找到很好的对应的翻译，所以就直接用英文原文了。

子图显著性

上节课介绍了整个图作为一个整体的性质定义和计算方法，这节课会从一个更小的视角来看图。如果图是由一些更小的模块构成的，那么这些构成图的模块是什么？有什么性质？了解了这些性质，就能够更好地定性图以及对不同的图模型进行区分。
对于子图的定义，可以先从比较少的节点的图开始，例如只有3个节点，但是边的数量、边的源和目的不同，就可以构成非同构图(non-isomorphoic)，从而形成不同的子图。同构图(isomorphic)是图论里一个很重要的概念，课程后面会给出定义。

子图的显著性(Significance)：一种可以用来定义子图的指标。正值表示高表征；负值表示低表征。
有了子图的显著性表征就可以对一个图构建出子图显著性的特征向量(显著性的模板)。用它们就可以来研究不同图的区别了。
课程里Jure给出了对于5种不同的网络的子图显著性的比较，可以发现：相同领域的子图显著性模板具有相同的模式(pattern)，不同领域的图则有着明显不同的子图显著性模板，且来自相同领域的不同图的子图显著性特征向量的相似度也更高。从而表明了对子图显著性的研究可以帮助对图进行定性和区分。

1. Motif

图的Motif是

图中反复出现的、显著的相互连接的模式。

这个简单的定义里面就有3个需要再定义的概念：

模式：即导出子图(induced subgraph)。
反复出现：这个模式出现了很多次。
显著的：这个模式出现的次数明显地多于一个类似的随机图里的模型出现的次数。
（研究Motif的意义这里就省略不纪录了）

下面就对这3点进行更细致的讲解。

1.1 导出子图

关于导出子图，维基百科里面的定义是：

由源图顶点的一个子集和该途中两端均在该子集的所有边的集合组成的图。

这里面一个要注意的就是对于边的定义，必须是出现在子图里所有节点的边，如果不是节点之间的边，则不能加入。这也就能解释课程里面的那个例子了。

1.2 出现次数

模式出现次数的统计是可以重复部分节点的，即只要导出子图的某个节点不一样，即使剩下的节点都相同，也都计算1次。

1.3 显著性

每次显著性的比对都需要有一个基准，而这个基准经常就是随机性网络。不过这次并没有使用第一讲里面介绍的Erdos-Renyi随机网络，而是一个新的模型。不过下面先定义显著性的数学公式。显著性使用Z-score来计算：
$Z_i=(N_i^{real} - \bar{N}_i^{rand}) \div Std({N}_i^{rand})$
其中 ${N}_i^{real}$ 是真实网络里第 $i$ 子图出现的次数；而 $\bar{N}_i^{rand}$