社交媒体数据集成用于社区检测
1. 现有社区检测方法概述
在社区检测领域,存在多种不同的方法,但它们各自存在一定的局限性。
- 基于团的方法 :该方法会枚举所有的 k - 团,然后将共享 k - 1 个节点的任意两个团合并。不过,这种方法的计算成本非常高。
- 基于线图的方法 :Evans 等人提出通过划分线图的链接来揭示重叠社区结构。线图可由原始图构建,线图中的每个顶点对应原始图的一条边,线图中的链接表示原始图中两条边的邻接关系。然而,此算法的内存效率较低,无法应用于大型社交网络。
- EdgeCluster 方法 :该方法以边为中心看待图,将边视为实例,节点视为特征,能够找到高度重叠的社区。
- 其他方法 :还包括软聚类和概率模型等方式来获取重叠社区。
2. 结合链接和内容信息的方法
- 生成模型 :像潜在狄利克雷分配(LDA)这样的生成模型可通过一组共享的社区成员身份来对链接和内容进行建模。但生成模型存在一个问题,即它们容易受到不相关关键词的影响。
- 概率模型 :有研究提出一种概率模型,用于在社区检测中结合链接和内容信息并有所改进。该模型先构建一个条件模型来估计节点 i 与节点 j 连接的概率,然后基于内容信息对节点的社区成员身份进行建模,最后通过社区成员身份将这两个模型统一起来。
- Topic - Link LDA 模型
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



