重叠社区的发现
相关知识点
社区的本质:一个实体有可能同时属于两个社区,任一社区内的边会十分密集,但是两个社区交集内的边会更加密集,而三个社区交集内的边还要密集。
极大似然估计(maximum likelihood estimation,MLE):我们对某种对象(如朋友图)实例的生成过程(即模型)建立某种假设。模型的参数确定了任一具体实例的生成概率,该概率称为这些参数值的似然(likelihood)。
关系图模型
社区-关系图(community-affiliation graph)
社区-关系图(community-affiliation graph)机制可以从社区生成社交网络图,规定如下:
- 存在给定数目的社区,存在给定数目的个体(图的节点);
- 每个社区可以拥有任意的个体集合作为成员,即个体对社区的隶属关系是模型的参数;
- 每个社区C都有一个概率 Pc 与之相关联,该概率表示C中两个成员由于都是C中成员而通过边连接的概率,这些概率也是模型参数;
- 如果一对节点属于两个或更多社区,那么如果某个包含这两个节点的社区按照规则3判定节点间有边的话,那它们之间就有边。
计算通过上述机制生成图的概率,计算的关键点:
- 给定个体到社区的分配
- Pc 值;
- 如何计算边的概率。如果 u 和
v 是社区的非空集合M中每个社区的成员,并且不是其他社区的成员,那么 u 和v 之间存在边的概率为:Puv=1−∏CinM(1−Pc)
那么E等于观察图中边集合的似然为:
∏(u,v)inEPuv∏(u,v)notinE(1−P