现实世界中,获取大规模带标签的网络数据集比较困难。当然,不排除斯坦福的SNAP [1],Newman大牛的个人主页[2]等给出了很多有价值的数据集。但是,如果想要构建符合自己需求的带有 ground truth的数据集就比较困难了。复杂网络领域的另一位大牛,Santo Fortunato [3], 给出了一个Linux版本的程序,可以根据参数配置生成比较理想的数据集。下载地址:LFR Benchmark
使用方法:
命令:
.\benchmark.exe -N 1000 -k 15 -maxk 20 -mu 0.1 -minc 20 -maxc 30
当然,生成的是.dat文件,如果在 Python 中使用还需要一定的处理。
试着写了一个转化函数,如下所示:
def read_LFR():
''' 基于LFR——benchmark生成后的数据进行处理,生成预览及GML文件
参考文献: A. Lancichinetti, S.Fortunato, F. Radicchi, Benchmark g