A novel attributed community detection by integration of feature weighting and node centrality
文章发布时间:2022年
1. 现有属性社区检测方法的缺陷
- 大多数社区检测算法更多地依赖网络结构的相关知识,而忽略了节点属性
- 在以往的许多社区检测方法中,都是利用所有的属性来计算两节点之间的相似度,而在一些属性的网络中,节点是通过大量的特征来描述,其中的一些特征可能是不相关的或者是冗余的,如果全部考虑的话,会对网络分析算法产生负面的影响,增加算法复杂度。
- 在以往的大多数属性社区检测方法中,所有属性的权重都认为是相同的,而实际上属性之间也有优先级。
2. 本文算法的新颖之处
- 提出一种改进的 LPA 算法,通过一种新的相似度量将结构相似度和属性相似度结合起来,减少了迭代时间,保持了原有的时间效率。
- 提出一种属性加权和属性特征选择的新方法:一方面可以容纳结构信息可属性信息,提高信息方面相似度的质量,另一方面,消除了不相关和冗余属性减少了复杂性
- 提出一种社交网络中节点重要性的改进标准,并将该标准应用于LPA,以提高团体检测性能。
3. 相关工作
3.1 非属性社区检测
只考虑网络结构,完全忽略节点属
- 层次社区检测:根据节点相似度准则来发现社区的一种算法,包括层次聚类算法和层次分裂算法。
- 模块化算法:使用模块化准则来识别集群并优化模块化性能。
- 随机游走模型:每个顶点都包含一个初始行走者的状态,接下来,步行者随机选择当前顶点邻域进行定位。
- 标签传播算法
3.2 属性社区检测
- 将属性社交网络转化为加权网络:利用节点的属性信息为构造的网络图分配权重。
- 距离模型:在同一距离度量中混合网络结构知识和节点属性相似度。
- 基于模型的方法:采用似然概率模型作为备选方案,避免设计不现实的距离准则。
- 子空间模型:通过结合节点的领域信息和属相相似度来检测社区。
4.属性社区检测方法(LPAFS)
4.1 权重矩阵计算
利用结构相似度和属性相似度计算边缘权重,使用了属性选择和属性加权
构造 G = (V, E, A) 其中V,E,与其他算法相同,表示节点以及边,以后不再论述,A (attr1,attr2,attr3,…,attrk)表示图中每个节点对应的特征属性。
降低节点属性的维数
-
特征提取法
将初始特征空间投影到低维空间中,在低维空间中,以保留原始输入信息的方式组合初始特征,生成一小部分特征。
-
特征选择法
根据一些预定义的准则选择主要属性的子集,以提高预测和性能。
利用拉普拉斯特征加权方法计算单个属性的权重
拉普拉斯评分是一种基于滤波的特征加权方法,根据特征的局部保持力来评价特征的重要性。
其中: Aj(i) 表示属性 attri在第 j 个节点上的值
A ‾ \overline{A} A(i) 为所有节点的属性 attri 的平均值
D 为对角矩阵,Djj=ΣKSjk
Sjk 为第 j 个节点和第 k 个节点之间的邻域关系,计算公式如下:
其中:t 是一个合适的常数
JD( j,k) 表示与节点 j 和 k 相关的积分
其中:Г( j ) 对应于节点 j 的一阶邻域集
计算出各属性的拉普拉斯分值后,相应地确定社交网络的边缘权重,边连接节点的权值计算公式为:
其中:Ssimij 表示结构相似度
Asimij 表示属性相似度
α 表示结构相似度和属性相似度之间的权衡
其中:Γ(i) 为节点i的邻居集合
∅(i, j, k) 为参与节点i,j,k的三元网络母题
其中:Num 表示属性总数
NumN 表示数值属性总数
NumC 非数值属性总数
AsimN(i,j)基于数值属性表示节点 i 和 j 的相似度
AsimC(i,j) 基于非数值属性表示节点 i 和 j 的相似度
其中:wl为用拉普拉斯评分计算的属性权重。
Sim(ViC( l ),VjC( l )) 计算如下:
其中:ViN( l ) 节点 Vi 的第 l 和数值属性
ViC( l ) 节点 Vi 的第 l 和类别属性
4.2 基于标签传播算法的属性团体检测
在第一阶段中,图形 G = (V,E,A) 使用结构属相似性转换为加权图形 G=(V,E,W)。
在此阶段,使用节点的拉普拉斯中心性(LC)计算社交网络中每个节点的受欢迎程度。社交网络中,人气较高的节点对其邻居具有穿透性,在社区中占据中心位置并于社区中其他节点有大量链接的节点对社区一致性的影响较大。
相关公式:
其中:Xi = Σnj=1wi.j = Σu∈N(v_i)
Xi 节点的权重之和
wi.j 用上述式(4)求得
G的拉普拉斯能量:
节点的拉普拉斯中心性CL(vi,G):
其中:Gi 通过从图 G 中删除 Vi 节点所获得的图
其中:LI(i,l) 为标签 l 对节点 i 的影响
NCL(vi, G) 节点 i 的拉普拉斯中心性。
与标准的标签传播算法中所有邻居传播一个标签的概率相等不同,本文提出的属性标签传播算法利用邻居的标签影响来选择最优的标签进行传播。这定义了标签验收(LA)
其中:Γ(u) 表示节点u∈v的一阶邻域
在标签更新的过程中,每一个节点都将获得其一级邻节点中影响力最大的节点标签。因此,被检测到的社区将具有最高的密度和最多的连通性。