第3课主要介绍了 子图的几个表征参数: motifs, graphlets,structural roles
(1)首先,什么是子图?
比如节点数为3的非同构有向图有13种:
(2)什么是motifs? 中文翻译有 图案、主题。
解释:网络中不断出现的重要互连模式。其中模式,意味着小的诱导子图。
注意:诱导子图是由图的顶点的子集和连接子集中顶点对的所有边组成的图。
比如:
这里的关键思想是,不断出现,意味着比预期的要频繁。如何定义这个频繁呢
就是在实际网络中出现的子图比在随机网络中发生的频率要高得多。 (是否可以理解成某种事件环)
这里的随机网络是指 和实际网络有着相同的 #(nodes), #(edges), #(degree distribution)
这里的#代表数目。
可以用Z分数进行motif的定义。
motif这个概念的定义:
有向/无向,有颜色/无颜色,变化的/静止的
motif这个概念的变量:
不同频率概念,不同重要性指标,欠表达,对于空模型的不同限制
不同网络的私有motif的Z得分不同。 22/60 ppt
(3)什么是graphlets:节点级别的特征
graphlets是被非同构子图连接的,从而获得节点级的子图衡量指标。
上图的29的子图 分别是节点数为2、3、4、5的graphlets。
GDV(graphlet degree vector)是在每个轨道位置具有节点频率的向量,它计算节点触摸的graphlet的数量。
GDV可衡量节点的本地网络拓扑。
举例如下:
下图中 a 这个 graphlet 在图G中围绕着 节点
v
v
v 出现的次数为 2次。
GDV的实际意义:
1)计算了 每种graphlet(子图)在大图中围绕着某节点 的数目 #(graphlets),其中当子图节点数量为2-5时,覆盖了73种graphlets
2)将其互连捕捉到4跳的距离
3)可衡量本地拓扑网络
4)比较两个节点的向量可极大地限制两个节点之间的局部拓扑相似性
(4)知道了motifs 和 graphlets的定义和计算公式, 那如何对图进行整体计算呢?
找到大小为k的图案/小图需要我们:1)列举所有大小为k的相连子图; 2)计算每种子图类型的出现次数。
仅知道图中是否存在某个子图是一个艰巨的计算问题。 而且,计算时间随着主题/小图的大小增加而呈指数增长。
存在很多算法,本节课只介绍 ESU算法(Exact subgraph enumeration,2016)
(5)ESU算法 逻辑和示例:
(6)判断两个图是否同构的原则是,是否存在函数f,使得G的相邻节点u、v变换后,f(u)、f(v)也在图H的相邻。
(7)structural roles in network 网络中的节点角色定义
什么是角色? 在网络中有相同位置的节点集合。
我们可以将角色视为网络中节点的功能,可以通过结构行为对其进行度量。 注意角色与组/社区不同。 角色基于节点子集之间关系的相似性。 具有相同角色的节点具有相似的结构属性,但是它们之间不必直接或间接地交互。 组/社区是基于邻接关系,邻近性或可达性而形成的,同一社区中的节点之间相互连接良好。
什么是结构等效?
我们说节点u和v在结构上是等效的,如果它们之间具有相同的关系。 结构上等效的节点可能以许多不同的方式相似。 例如,节点u和v在图4中在结构上等效,因为它们以相同的方式连接其他节点。
如:
角色使我们能够识别网络中节点的不同属性。
(8) 如何发现网络中的节点角色?
在这里,我们将介绍一种称为RolX的自动结构角色发现方法。 这是一种没有先验知识的无监督学习方法。 图5是RoIX方法概述。
递归特征抽取:
递归特征提取的基本思想是聚合节点的特征,并使用它们生成新的递归特征。 通过这种方式,我们可以将网络连接变成结构化的功能。
节点的邻域功能的基本集包括:a. 局部特征,它们都是节点度的度量。 b. Egonet功能是在节点的egonet上计算的,可能包括egonet内边缘的数量以及进入/离开egonet的边缘数量。 这里节点的自我网包括节点本身,其邻居和这些节点上的诱导子图中的任何边。
为了生成递归特征,首先我们从节点特征的基本集合开始,然后使用当前节点特征的集合来生成其他特征并重复。 每次递归迭代时,可能的递归特征的数量呈指数增长。