最近一直在看Community Discovery这一块儿的论文,深深的感觉现在就是一个矿工,不断的想方设法挖出来更有价值的信息。而且不是一个点一个点的突破,而是需要寻找出一种脉络,串联起所有的信息来。头痛。
最近的情况是,有一个well-connected的网络,然后我想把它稀疏化、打散成一个个独立的community的感觉。这样就可以分别识别每个community的特征什么的。所以厚着脸皮找施老师讨了几篇papers。而主要的问题是,数据太大了…11M nodes, 20 M edges,还是directed weighted network…我直接放弃了把这些数据从SQL Based data source中挪出来的想法,还是先努力的减少一些edges吧。
先罗列几个相关的术语:community discovery, graph partitioning, network clustering, network sparsification, modularity。了解一个领域最好的方法大概就是去读literature review了,所以乖乖的要了一篇:
Srinivasan Parthasarathy, Yiye Ruan and Venu Satuluri. " Community Discovery in Social Networks: Applications, Methods and Emerging Trends ", in Social Network Data Analytics 2011. (NS, DM)
最契合我的想法的就是cut类方法——remove some edges to disconnect the network, then (drop isolated nodes with degree = 1 (could be added back later as auxiliaries to eac