解读 Efficient Vector Influence Clustering CoefficientBased Directed Community Detection Method
摘要
社区检测算法对于确定复杂网络的特征统计很重要。与传统的社区检测算法相比,我们的算法主要集中在有向网络上,如微信时刻关系网络和新浪微博关注者关系网络。为了解决当前定向社区检测算法存在的执行效率较低、精度偏差较大等缺点,我们提出了一种基于社区三角度结构并基于本地信息传递过程建模的方法,以精确检测定向网络中的社区。基于概率图中的有向向量理论和有向网络中顶点的动态信息传递增益(ITG),提出了一种新的ITG方法和相应的目标优化函数来评估社区检测算法中的划分质量。然后,我们结合ITG和目标函数创建了新的有向网络社区检测算法ITG有向加权社区聚类。通过使用人工网络数据集和来自在线社交媒体的大型真实世界网络数据集的大量实验,我们的算法在有向网络中被证明比几种传统的、众所周知的社区检测方法(例如FastGN、顺序统计局部优化方法和Infomap)更准确和更快。
I. INTRODUCTION
对大规模社交网络的研究变得越来越重要。由于相互联系的便利,在线社交网络的规模正在以前所未有的速度扩大。例如,到2015年最后一天结束时,全球推特用户数量超过5亿,包括2亿活跃用户。微信用户数超过6亿,活跃用户4亿。
这些大规模社交网络中的社区检测在网络拓扑和体系结构的研究中起着重要的作用。由于大规模网络中的顶点和边数量庞大,结构复杂,传统的图分析方法无法在合理的执行时间内完成分层结构分析和知识获取等研究。因此,社区检测算法的高处理效率和准确结果是从庞大的有向复杂网络中检测潜在社区结构所必需的。
为了解决传统社区检测算法在大规模社交网络和微信等定向社交网络中没有准确的仿真模型和高算法执行效率和精度的问题,本文从社区的基本结构三角形组入手,对网络中顶点的局部影响进行建模。利用方向矢量信息传播、概率计算理论和概率图论对那些对有向社会网络有巨大影响的顶点进行建模,构造了顶点的有向聚类系数。我们还构建了用于衡量社区检测效率的目标函数和我们的大规模社交网络模型的分布式并行社区检测算法。最后,通过在大规模人工网络数据集和真实网络数据集上的实验,验证了算法的精确性和新颖性。
在这篇论文中,第2节展示了当前大规模网络中社区检测算法的相关工作。第三节详细介绍了我们的ITG模型和基于ITG的有向网络社区检测算法ITG-DWCC。第四部分给出了ITG-DWCC算法和其他经典算法在人工网络数据集和真实网络数据集上的实验结果的比较。第五部分给出结论。
II. RELATED WORK
在网络中,社区是由顶点和边组成的划分,称为组和簇。群落结构的基本特征是同一个群落中的顶点紧密相连,不同群落中的顶点稀疏相连。此外,信息在一个社区内的传播速度比在不同社区间的传播速度更快。
基于不同的分析目标,当前的社区检测算法可以分为四类:层次聚类方法、矩阵谱分析方法、基于边缘的方法和基于最大团的方法[1]。针对大规模网络,社区检测算法分为三类:基于模块化值优化的方法、基于随机游走的方法和基于重叠社区检测的方法。
A. MODULARITY VALUE OPTIMIZATION-BASED METHOD
该方法试图将基于模块化优化的小规模社区检测算法的思想引入到大规模社区检测中。通过模块化的优化,得到了细粒度的社区检测结果。纽曼和格文[2]提出了模块度Q的函数,定义为:
Q
=
∑
r
(
e
r
r
−
a
r
2
)
(1)
Q=\sum_r(e_{rr}-a_r^2)\tag{1}
Q=r∑(err−ar2)(1)
式(1)中, e r r e_{rr} err表示社团 r r r的总内边数, α r α_r αr表示群的内边数和外边数之和。如果我们把一个社区看作一个子图,对应的随机图模型的边数会小于实际的边数。一个社区的结构越好,模块化功能的价值就越大。
这些方法大多是大规模网络社区检测中模块化的优化方法。经典的代表性算法是FastGN。2004年,纽曼提出了一种基于边交换过程模块化优化的FastGN (FN) [3]算法。该算法利用不同社区之间每个边交换过程中的Q值增益来寻找模块化Q的最优方向,但当网络规模很大时,FastGN效率较低。后来克劳塞特和纽曼利用堆结构进行改进,提出了CNM算法[4];在大规模网络中,它的复杂性是网络规模的早期阶段。
2008年,布朗德尔提出了一种快速算法,名为Louvain[5]。Louvain还使用模块化优化来处理网络社区检测。当模块化收敛到最大值时,它将停止检测过程。到2014年底,它被认为是大规模网络中最快的社区检测算法。阿尔瑙·普拉特-佩雷斯在2014年的一篇文章[6]中认为,当网络规模增加时,该算法的性能会迅速下降,这表明该算法在2014年需要进一步研究。
另一个著名的算法是基于LPA(标签传播算法)[7]系列的大规模社区检测算法。LPA的时间复杂度是o(n2),其中n代表网络的节点数。与其他复杂的机器学习算法相比,LPA算法复杂度更低,聚类效率更高。2007年,拉格文通过提供RAK算法[8]改进了LPA算法,当网络规模增加时,该算法是一种近似线性正比的基于社区的检测操作。通过预定义的目标函数,它简化了LPA的复杂性,并使用网络结构作为检测社区结构的指南。它在空手道俱乐部网和美国大学足球网的成绩显示了RAK的良好表现。然而,在基准网络的实验中,RAK算法有一些特殊的缺点,需要改进。2010年,格雷戈里通过提供COPRA(社区重叠传播算法)[9]改进了RAK,COPRA是一种专注于挖掘重叠社区的算法。在COPRA算法中,每个节点都有多个社区标签。此外,科普拉的传播过程包含了群落的多种信息,这有助于提高科普拉的执行效率。当存在大量重叠社区时,会导致错误标签的随机选择。
2011年,金等[10]提出了基于局部检测优化的近似线性快速遗传算法。该算法改进了LPA第五次迭代的结束条件,节省了20%的迭代次数。2011年,Cordasco和加尔加诺[11]提出了半同步LPA算法。通过同步和异步建模的网络顶点并行着色技术,提高了执行效率。它对大规模网络很有用,但在模块化计算的解决方案中受到限制。当图形缩放相当大时,它找不到小规模和定义明确的社区。
B. RANDOM WALK BASED METHOD
基于随机游走的方法具有信息容易在内部高密度社区中传播的特点。与基于模块化优化的方法不同,这种方法侧重于信息传播或某些物理元素渗透的过程,同时快速有效地获得社区结构。一些经典的代表性算法如下。
2006年,Pons提出了基于大规模网络中节点相似性的随机游走社区检测算法Walktrap [12]。通过对不同社区之间的距离使用欧氏距离的定义,具有良好的时间复杂度;最佳时间复杂度为o(mn2),普通时间复杂度为o(n2logn)。2008年,Rosvall详细总结了基于随机游走的社区检测算法的引入,并利用信息论的信息熵函数建立了不同节点中信息流的概率模型,提出了Infomap算法[13]。通过比较来自许多大规模科学家合作网络和LFR [14]标准数据集的实验结果,已经证明Infomap算法比一些重叠社区检测算法性能更好。
C. OVERLAPPING COMMUNITY DETECTION METHOD
重叠社区检测方法具有不同于先前算法的构造。代表性算法如下。2005年,Palla提出了Clique逾渗法算法(CPM) [15],该算法基于内部社区的边缘联系紧密,容易形成小团体的特点,最终组成一个社区。
然而,CPM算法对派系之间的联系限制非常严格,导致时间复杂度很高。2010年,ahnproposeddelinkclusteringalgorithm(LCA)[16]通过建立一个基于边而不是基于节点的模型。在计算过程中,利用雅克卡系数计算连通边的相似度,使得重叠社区的存在变得自然。2011年,菲利普提出了一种测量函数,该函数使用基于Q值的显著性函数作为检测目标函数,并发明了顺序统计局部优化方法(OSLOM) [17]。OSLOM算法是有向加权边缘网络中第一个社区检测算法。生命周期评价也是基于优化显著函数值构建的。2013年,杨和莱斯科维克对算法进行了改进,针对社区附属关系目标函数优化了群节点,提出了bigclam算法[1]。通过定义不同社区中的重叠社区,该算法在大规模网络中产生了良好的效果。
然而,上述算法都没有针对有向大规模网络进行社区检测,执行时间长,准确率低,因此有必要构建一种高效的算法进行改进。
III. VECTOR INFLUENCE CLUSTERING-BASED DIRECTED NETWORK COMMUNITY DETECTION ALGORITHM
在实际的社交网络关系中,某人的两个朋友可以是彼此的朋友,这种属性可以称为网络的聚类特征[18]。网络平均聚类系数反映了网络的微观聚类特征,已成为联系紧密的相邻节点的重要指标。网络的节点聚类系数定义为:在一个有
N
N
N个节点的网络中,一个节点
i
i
i有
k
k
k个邻居与其相连,其他节点,即节点
i
i
i有k个邻居。如果节点中有
E
i
E_i
Ei条边,则节点I的聚类系数为:
C
i
=
2
E
k
i
(
k
i
−
1
)
(2)
C_i=\frac{2E}{k_i(k_i-1)}\tag{2}
Ci=ki(ki−1)2E(2)
从几何角度来看,公式(2)中的
C
i
C_i
Ci同样可以定义为:
C
i
=
∣
T
r
i
a
n
g
l
e
S
t
r
u
c
t
u
r
e
(
i
)
∣
∣
T
r
i
p
l
e
S
t
r
u
c
t
u
r
e
(
i
)
∣
(3)
C_i=\frac{|TriangleStructure(i)|}{|TripleStructure(i)|}\tag{3}
Ci=∣TripleStructure(i)∣∣TriangleStructure(i)∣(3)
在公式(3)中,三元组是与节点I相连的结构,包括节点
i
i
i本身和另外两个节点,并且在节点
i
i
i和另外两个节点之间至少存在两条边.
网络平均聚类系数在公式(4)中定义:
C
G
=
(
V
,
ε
)
≡
1
N
∑
v
i
∈
V
,
i
=
1
2
E
i
k
i
(
k
i
−
1
)
(4)
C_{G=(V,\varepsilon)}\equiv \frac{1}{N}\sum_{v_i\in V,i=1}\frac{2E_i}{k_i(k_i-1)}\tag{4}
CG=(V,ε)≡N1vi∈V,i=1∑ki(ki−1)2Ei(4)
网络平均聚类系数用于测量网络中三角形结构的连接密度。而网络中三角形结构的比例较大,这些三角形结构在内部联系上属于更紧密的群落结构,网络平均聚类系数较大。整个网络的聚类系数有取值范围
0
≤
C
G
=
(
V
,
ε
)
≤
1.
0\leq C_{G=(V,\varepsilon)}\leq 1.
0≤CG=(V,ε)≤1.
事实上,在许多类型的社交网络中,用户 u u u的朋友是用户 u u u的朋友的朋友的概率随着网络规模N的增加而趋近于常数[18]。当 N → ∞ , C G = ( V , ε ) = O ( 1 ) N → ∞,C_{G=(V,ε)}= O(1) N→∞,CG=(V,ε)=O(1)收敛到一个非零常数时,反映了“一类事物聚在一起”的特征。’
A. VECTOR INFLUENCE-BASED CLUSTERING COEFFICIENT MODEL
在为传统的社交网络检测算法建立模型时,网络通常被处理为未加权的无向图,忽略了边的方向。然而,在在线社交网络中,边方向总是包含重要信息。在线社交网络具有重要节点(如意见领袖)总是信息传播发起者的特点。本文基于图灵奖获得者珀尔的经典概率图形模型理论(based on the classic Probabilistic Graphical Model (PGM) theory),将不同社交网络节点之间的信息传播边缘方向提取为一个有向向量,提出了一个同时具有信息传播方向和信息传播概率的向量影响聚类系数模型.
PGM理论使用图结构来表示变量的联合概率分布。近年来,它已成为不确定性推理解决方案的研究中心。图论结合了概率理论和图论的知识。在图论中,随机变量之间的依赖关系是可以表示的,并为统计多变量建模提供了一个有效的表示框架.
PGM理论总是可以通过两个条件来分类:(1)基于边的有向或无向属性,以及(2)基于不同层次的抽象。基于边的有向或无向属性来分类PGM,有三类:(1)称为贝叶斯网络(BN) [19]的有向图模型,其中网络结构是有向无环图;(2)称为马尔可夫网络(MN) [19]的无向图模型,其中网络结构是无向图;由条件随机场和链图组成的包含有向边和无向边的无向模型。根据抽象层次的不同,可以分为两类:(1)基于随机变量的概率图模型,如BN、MN、CRF和CG;(2)基于模板的概率图模型。
通过分析比较,我们可以确定,在本文研究的社交网络节点中,信息传播概率与有向边关系和具体的传播方式有着密切的关系。我们选择了基于随机变量概率的贝叶斯信息传播网络来建立模型。
首先,从图1-(a)和1-(b) 中的传统无向聚类系数图,可以推导出边缘信息传播的概率和方向。在一个实际的直接社会网络中,外部影响聚类系数应该从图2中推导出来。
我们假设当图2-(a)和2-(b)中的所有边都是双向的,它们可以分别等于图1-(a)和1-(b)。当所有边都是双向的时,所有边的信息传递增益路径(ITGP)相当于无向网络。追溯到公式(2),我们可以在
k
i
k_i
ki个节点之间分割实际存在的
E
i
E_i
Ei个边中每个边的信息贡献。
对于图2-(a),因为没有连接节点j和k的边,所以分析起来很简单。我们假设节点
i
i
i到节点
j
j
j和
k
k
k的ITG(信息传递增益),其可以在公式(5-1)中定义:
I
T
G
i
=
α
×
I
T
G
i
↔
j
+
β
×
I
T
G
i
↔
k
(5)
ITG_i=\alpha\times ITG_{i\leftrightarrow j}+\beta\times ITG_{i\leftrightarrow k}\tag{5}
ITGi=α×ITGi↔j+β×ITGi↔k(5)
I
T
G
i
↔
j
=
{
δ
i
→
j
×
I
T
G
i
→
j
+
δ
←
j
×
I
T
G
i
←
j
,
δ
i
→
j
≠
0
θ
i
→
j
×
δ
i
←
j
×
I
T
G
i
←
j
,
δ
i
→
j
=
0
(5-1)
ITG_{i\leftrightarrow j}=\begin{cases}\delta_{i\rightarrow j}\times ITG_{i \rightarrow j}+\delta_{\leftarrow j}\times ITG_{i\leftarrow j},& \delta_{i\rightarrow j }\neq 0\\ \theta_{i\rightarrow j}\times \delta_{i\leftarrow j}\times ITG_{i\leftarrow j},& \delta_{i\rightarrow j}=0\end{cases}\tag{5-1}
ITGi↔j={δi→j×ITGi→j+δ←j×ITGi←j,θi→j×δi←j×ITGi←j,δi→j=0δi→j=0(5-1)
I T G i ↔ k = { δ i → k × I T G i → k + δ i ← k × I T G i ← k , δ i → k ≠ 0 θ i → k × δ i ← k × I T G i ← k , δ i → k = 0 (5-2) ITG_{i\leftrightarrow k}=\begin{cases}\delta_{i\rightarrow k}\times ITG_{i\rightarrow k}+\delta_{i\leftarrow k}\times ITG_{i\leftarrow k},&\delta_{i\rightarrow k}\neq 0\\ \theta_{i\rightarrow k}\times \delta_{i\leftarrow k}\times ITG_{i\leftarrow k},&\delta_{i\rightarrow k}=0\end{cases}\tag{5-2} ITGi↔k={δi→k×ITGi→k+δi←k×ITGi←k,θi→k×δi←k×ITGi←k,δi→k=0δi→k=0(5-2)
- α \alpha α是 I T G i ↔ j ITG_{i\leftrightarrow j} ITGi↔j的概率系数, β \beta β是 I T G i ↔ k ITG_{i \leftrightarrow k} ITGi↔k的概率系数
I T G i ↔ j ITG_{i\leftrightarrow j} ITGi↔j和 I T G i ↔ k ITG_{i \leftrightarrow k} ITGi↔k是 相等的分叉累积参数( the equal bifurcation accumulation parameters)
所以, α 和 β \alpha和\beta α和β的默认值为1- δ i → j , δ i ← j , δ i → k , δ i ← k \delta_{i\rightarrow j},\delta_{i\leftarrow j},\delta_{i\rightarrow k},\delta_{i\leftarrow k} δi→j,δi←j,δi→k,δi←k是节点 i i i的信息传递概率参数( information transfer probability parameters )。假设默认值等于0.5
- θ i → , θ i ← k \theta_{i\rightarrow },\theta_{i\leftarrow k} θi→,θi←k是在计算图2中节点I的定向信息传递增益聚类系数时,保留信息传递增益概率,就像新浪微博、脸书和推特的关系一样。
- 对于 I T G i ↔ j , I T G i ↔ k ITG_{i\leftrightarrow j},ITG_{i \leftrightarrow k} ITGi↔j,ITGi↔k的计算,当不存在边 i → j i\rightarrow j i→j时, δ i → j = 0 \delta_{i\rightarrow j}=0 δi→j=0意味着, j j j不是 i i i的粉丝( j j j无权共享和查看节点 i i i的微信时刻状态)。
- 此外,信息不能从 i i i转移到 j ( i → j ) j(i → j) j(i→j),但可能存在从 j j j转移到 i ( i ← j ) i (i ← j) i(i←j)的储备信息,因为我们正在计算顶点 i i i的定向信息转移增益聚类系数,顶点 i i i是信息转移源。与 i → j i → j i→j相比, i ← j i ← j i←j的这个方向是一个储备ITG,因此我们定义 θ i → j = 0.5 \theta_{i\rightarrow j}=0.5 θi→j=0.5,以50%的概率表示这种情况。
例如,在图2-(b) 中,信息传递增益路径(ITGP)被定义为从节点
i
i
i开始的信息,通过
i
−
j
i-j
i−j和
i
−
k
−
j
i-k-j
i−k−j的路径给节点
j
j
j提供信息增益。基于概率图论模型,我们可以通过将有向无环图抽象成贝叶斯网络以下方式计算贝叶斯网络概率.贝叶斯网络中的顶点代表随机变量,而边代表随机变量之间的概率关系。因此,联合概率分布可以由公式(6)中的贝叶斯链规则表示:
P
(
X
1
,
X
2
,
.
.
.
,
X
n
)
=
∏
i
P
(
X
i
∣
P
a
r
G
(
X
i
)
)
)
(6)
P(X_1,X_2,...,X_n)=\prod_iP(X_i|Par_G(X_i)))\tag{6}
P(X1,X2,...,Xn)=i∏P(Xi∣ParG(Xi)))(6)
在公式(6)中, P a r G ( X i ) ParG(X_i) ParG(Xi)是节点 X i X_i Xi在图G的父节点的对应随机变量。在本文研究的有向网络中,一个源节点对其他节点的信息影响是由信息的有向传输引起的,它也会影响对应社区结构的形成。由于在现实的社交网络中,粉丝总是聚集在意见领袖周围,形成社区结构,这种现象会影响整个网络中的信息传递模式。对于图2-(a),我们可以假设节点为节点j和k的信息传递源。基于概率图论,每个边上信息传递概率的变化反映了端节点接收的信息传递增益。
根据 ITGP的上述定义,我们得到图2-(b) 中的ITGP公式:
∑
I
T
G
i
↔
j
=
I
T
G
i
↔
j
+
I
T
G
i
↔
k
↔
j
=
I
T
G
i
↔
j
+
I
T
G
i
↔
k
×
I
T
G
k
↔
j
(7)
\begin{aligned}\sum ITG_{i\leftrightarrow j} &= ITG_{i\leftrightarrow j}+ITG_{i\leftrightarrow k\leftrightarrow j}\\ &=ITG_{i\leftrightarrow j}+ITG_{i \leftrightarrow k}\times ITG_{k\leftrightarrow j}\end{aligned}\tag{7}
∑ITGi↔j=ITGi↔j+ITGi↔k↔j=ITGi↔j+ITGi↔k×ITGk↔j(7)
基于ITG方向性和公式(5-1),我们可以转化有 I T G i ↔ j = δ i → j × I T G i → j + δ i ← j × I T G i ← j ITG_{i\leftrightarrow j}=\delta_{i\rightarrow j}\times ITG_{i\rightarrow j}+\delta_{i\leftarrow j}\times ITG_{i\leftarrow j} ITGi↔j=δi→j×ITGi→j+δi←j×ITGi←j
类似的,
∑
I
T
G
i
↔
k
\sum ITG_{i\leftrightarrow k}
∑ITGi↔k在公式(8)显示:
∑
I
T
G
i
↔
k
=
I
T
G
i
↔
k
+
I
T
G
i
↔
j
↔
k
=
I
T
G
i
↔
k
+
I
T
G
i
↔
j
×
I
T
G
j
↔
k
(8)
\begin{aligned}\sum ITG_{i\leftrightarrow k}&=ITG_{i\leftrightarrow k}+ITG_{i\leftrightarrow j \leftrightarrow k} \\&=ITG_{i\leftrightarrow k}+ITG_{i\leftrightarrow j}\times ITG_{j\leftrightarrow k}\end{aligned}\tag{8}
∑ITGi↔k=ITGi↔k+ITGi↔j↔k=ITGi↔k+ITGi↔j×ITGj↔k(8)
同理,
I
T
G
i
↔
k
=
δ
i
→
k
×
I
T
G
i
→
k
+
δ
i
←
k
×
I
T
G
i
←
k
ITG_{i\leftrightarrow k}=\delta_{i\rightarrow k}\times ITG_{i\rightarrow k}+\delta_{i\leftarrow k}\times ITG_{i\leftarrow k}
ITGi↔k=δi→k×ITGi→k+δi←k×ITGi←k.由于不同节点之间传输的对称性,我们可以假设
I
T
G
i
→
k
ITG_{i\rightarrow k}
ITGi→k的值,并默认为1.同时,默认
δ
i
←
k
=
0.5
,
δ
i
→
k
=
0.5
\delta_{i\leftarrow k}=0.5,\delta_{i\rightarrow k}=0.5
δi←k=0.5,δi→k=0.5当节点
i
i
i和
k
k
k存在双向的ITG 边时,有
I
T
G
i
↔
k
=
0.5
×
1
+
0.5
×
1
=
1.
ITG_{i\leftrightarrow k}=0.5\times 1+0.5\times 1=1.
ITGi↔k=0.5×1+0.5×1=1.类似的,我们可以得到节点
i
i
i和
j
j
j的双向ITG边,
I
T
G
i
↔
j
=
0.5
×
1
+
0.5
×
1
=
1.
ITG_{i\leftrightarrow j}=0.5\times 1+0.5\times 1=1.
ITGi↔j=0.5×1+0.5×1=1.
通过建立图2-(a)和图2-(b)中的信息传递增益路径(ITGP)模型,我们得到图2-(a)的9个不同的ITG子图和图2-(b)的27个不同的ITG子图(即图4和图5)。
根据公式(5-1)、(5-1)、(5-2),我们在表1中计算相应的ITG结果:
每个图形对应的 I T G i ITG_i ITGi的值可以表示每种有向三元组中的权重。通过对图中所有有向三元组类型的统计和加权求和,我们可以计算出表2和表3 中有向图中所有有向三元组的加权分布。
类似地,通过将该方法扩展到三角形的ITG计算,我们在图4和图5 中获得了27个不同的ITG图形。以图4-(a)为例,节点
i
i
i、节点
j
j
j和节点
k
k
k都是用双向边连接的,而所有的边以前都被定义为1。节点
i
i
i和
k
k
k的ITG和由节点
i
i
i和节点
j
j
j的单向ITG以及从
i
i
i开始从
k
k
k到
j
j
j的中继ITG组成。我们在公式(9)中看到:
∑
I
T
G
i
↔
j
=
I
T
G
i
↔
j
+
I
T
G
i
↔
k
↔
j
=
I
T
G
i
↔
j
+
I
T
G
i
↔
k
+
I
T
G
k
↔
j
\begin{aligned}\sum ITG_{i\leftrightarrow j}&=ITG_{i\leftrightarrow j}+ITG_{i\leftrightarrow k\leftrightarrow j}\\ &=ITG_{i\leftrightarrow j}+ITG_{i\leftrightarrow k}+ITG_{k\leftrightarrow j}\end{aligned}
∑ITGi↔j=ITGi↔j+ITGi↔k↔j=ITGi↔j+ITGi↔k+ITGk↔j
另外,我们得到了节点
i
i
i和节点
k
k
k之间的ITG之和:
∑
I
T
G
i
↔
k
=
I
T
G
i
↔
k
+
I
T
G
i
↔
j
+
I
T
G
j
↔
k
(10)
\sum ITG_{i\leftrightarrow k}=ITG_{i\leftrightarrow k}+ITG_{i\leftrightarrow j}+ITG_{j \leftrightarrow k}\tag{10}
∑ITGi↔k=ITGi↔k+ITGi↔j+ITGj↔k(10)
现在,节点I的ITG是从节点I到其他两个节点的ITG之和。我们根据图4和图5 计算了表2中27个不同数字的ITG:
因为图2-(a)和2-(b) 中的每条边都有三种可能的方向状态,所以节点 i i i的相邻边有三种不同的定义,即friends (i ↔ j)、following (i → j)和fan (i ← j)。同时,节点 i i i的相对边 i ↔ k i ↔ k i↔k也有三个定义。此外,边 j ↔ k j ↔ k j↔k具有三种类型的关系,即节点 j j j和节点 k k k是朋友,节点 j j j跟随节点 k k k,节点 k k k跟随节点 j j j。我们可以用0、1、2来表示这些关系,并用三个不同的定义进行替换,我们在表3中获得了以下27种排列,其中相同颜色的网格表示图4和图5中的对称图形:
在上述27种排列情况下,由于节点I是源节点,我们可以找到一些对称结果。例如,图4-(b)和4-©是对称结果。在表3中,我们使用相同的颜色块作为对称结果,最终我们可以得到15个独立的结果;我们将子图分为图4和图5。
有向网络中节点
i
i
i的信息传递增益聚类系数(ITGC)可以由公式(11)中表3 中的15个不同的独立结果相加如下:
I
T
G
C
i
=
∑
t
=
1
15
I
T
G
i
−
t
r
i
a
n
g
l
e
(
t
)
×
N
u
m
b
e
r
(
t
)
∑
t
′
=
1
6
I
T
G
i
−
t
r
i
p
l
e
(
t
′
)
×
N
u
m
b
e
r
(
t
′
)
(11)
ITGC_i=\frac{\sum^{15}_{t=1}ITG_{i-triangle}(t)\times Number(t)}{\sum_{t'=1}^6 ITG_{i-triple}(t') \times Number(t')}\tag{11}
ITGCi=∑t′=16ITGi−triple(t′)×Number(t′)∑t=115ITGi−triangle(t)×Number(t)(11)
- I T G C i ITGC_i ITGCi是节点 i i i在有向网络的 I T G ITG ITG值。
- ∑ t = 1 15 I T G i − t r i a n g l e ( t ) × N u m b e r ( t ) \sum^{15}_{t=1}ITG_{i-triangle}(t)\times Number(t) ∑t=115ITGi−triangle(t)×Number(t)是使用节点 i i i(信息传递源节点)作为顶点的三角形的加权数.它的权重是来自15种不同类型的加权三角形的ITG(信息传递增益)贡献ITGi_triangle(t)乘以它的计数值Number(t)。
- ∑ t ′ = 1 6 I T G i − t r i p l e ( t ′ ) × N u m b e r ( t ′ ) \sum_{t'=1}^6 ITG_{i-triple}(t') \times Number(t') ∑t′=16ITGi−triple(t′)×Number(t′)是节点 i i i为顶点的三元组加权数;它的权重是不同类型三元组的六个ITGi_triple(t0)值的加权和乘以它的计数值Number(t‘)。
- 类似于无向聚类系数,ITGC有相同的特征,测量图的紧密度以形成紧密的社区。
B. DIRECTED TARGET FUNCTION CONSTRUCTION AND IMPROVEMENT
构建了向量影响聚类系数模型的目标函数。我们的模型基于普拉特-佩雷斯等人的定义。我们重点研究了有向图的性质,并对模型做了一些方向性的改进,定义了加权社区聚类(DWCC)。在定义DWCC的顶点与社区的关系时,我们将wvt(x,C)定义为社区C内顶点x形成的加权三角形数。此外,我们将wvt(x,C)定义为加权邻居节点数,它可以在社区C内由x形成三角形。
加权三角形数wt(x,C)是指基于焦点顶点x,所形成的具有ITG定义的三角形数可以被记录为加权三角形。同时,加权节点数意味着有用且有效的节点数被记录为聚焦源顶点x周围的ITG定义中的加权节点。
基于阿尔瑙·普拉特-佩雷斯目标函数的优化迭代,划分细化步骤与WCC可能增加的三个函数及其相似性相关,这意味着这三个不同的函数可以转换为WCCI的联合计算过程。在定向改善的过程中,我们还需要为了降低算法的时间复杂度,可以在下面的公式(12)中找到:
D
W
C
C
I
′
(
v
,
C
)
=
D
W
C
C
(
P
′
)
−
D
W
C
C
(
P
)
=
1
V
⋅
(
d
i
n
⋅
Θ
1
+
(
r
−
d
i
n
⋅
Θ
2
)
+
Θ
3
)
(12)
\begin{aligned}DWCC'_I(v,C)& =DWCC(P')-DWCC(P)\\ & =\frac{1}{V}\cdot(d_{in}\cdot \Theta_1+(r-d_{in}\cdot \Theta_2)+\Theta_3) \end{aligned}\tag{12}
DWCCI′(v,C)=DWCC(P′)−DWCC(P)=V1⋅(din⋅Θ1+(r−din⋅Θ2)+Θ3)(12)