摘要
(Q1) what are structural design principles of real-world hypergraphs?
(Q2) how can we compare local structures of hypergraphs of different sizes?
(Q3) how can we identify domains which hypergraphs are from?
定义h-motifs(hypergraph motifs)和CP(characteristic profile),来解决上述三个问题。
提出新算法并进行采样优化,共得到三个算法及其理论分析,保证解决问题的效率。
(h-motifs是较为合理的超图基元,而CP是超图局部模式的直观体现)
动机
- Graph在结构方面既有全局模式也有局部模式。
- 后者正是区分真实图与随机图、不同领域图的区别,计算不同network motifs的出现次数即可。
- 而寻找独立于超边和超图size的超图局部结构模式,需要新概念h-motifs来表示连通超边的结构。
思路
- 超图重点在超边,它的本质是点集的非空子集。
- 超边的连接关系如果只考虑超边作为集合的二元关系,反映在投影图中只有open与closed这2种,如图C,在超图中则有8种(未解)。
- 可是如果考虑超边作为集合的三元关系,在投影图中相同的局部结构模式,就有了区别,如图D的右侧两个子图所示。
因此要利用投影图来算h-motifs,但不能止步于投影图
Figure 2: (a) Example: co-authorship relations. (b) Hypergraph: the hypergraph representation of (a). © Projected Graph: the projected graph of (b). (d) Hypergraph Motifs: example h-motifs and their instances in (b).
概念
根据上表,自上而下,逐步求得邻接超边、投影图、h-motifs、CP。
而全部26种h-motifs如图3所示。这是在全部2^7种可能中,排除了非连通3-超边、对称模式、重复超边(如图4)之后的结果。
此为标准化 t h-motifs出现次数
是normalized Z scores的替代,因为后者在network motifs中严重依赖于图的大小[45]。
进而作为一个分量而得到CP的向量的算数表达式。
算法
分别是对hyperedge和hyperwedge采样,复杂度分析见附录,两种采样都对h-motifs值做了修正,使其成为无偏估计。
随机图的随机方式在2.3中讲了,但具体还不知道,涉及G’
显然真实超图和随机超图有很大差别
对于真实超图,领域内有共性,领域间有差别。
超图间相关性的实验中,h-motifs的表现明显优于network motifs,使不同领域超图较好地区分开来,第3章开头有一段方法描述。
这还不太懂
h-motifs还可用于分析超图细微差别,比如历年共同作者网络的形势变化,合作不再那么集中。
A+算法的速度、精度分别远强于E、A算法。
降低采样率,A+算法的精度损失并不明显。
多线程加速算法,效果显著。
内存——投影图?大小对效率影响还没太懂
疑问:
2.2 集合的二元、三元关系的具体分析
2.3 随机超图的具体方式
3 h-motifs与network motifs方法对比
3.2 确定3-连通超边是某个h-motifs的复杂度分析(lemma 2)
3.3 两种采样算法的复杂度分析和有效性对比
3.4 并行与实时计算——尽可能减小投影图开销