前言
在空间网络中挖掘(k,r)-core。空间网络可以是图,但根据一些大佬的定义是具有空间属性的点组成的图。(k,r)-core是空间网络中的子图,它满足两个约束:结构性约束和相似性约束,它还有一个隐藏约束:连通。结构性约束是指(k,r)-core中每个顶点至少有k个
数据下载
第1章的所有社区挖掘工作都是基于Brightkite数据集的,Brightkite数据集是一个基于位置的社交网络平台提供的用户签到信息,用户在签到时会共享位置信息,所以每条签到数据都有一个位置信息。
在此给出Brightkite数据集的下载地址。
下载地址:http://snap.stanford.edu/data/loc-brightkite.html
数据分析
SNAP将Brightkite数据集构建成了无向空间网络图,其中数据集包含loc-brightkite_edges.txt.gz 和 loc-brightkite_totalCheckins.txt.gz两个文件,分别对应空间网络中的边集和点集。
loc-brightkite_totalCheckins.txt.gz 数据集大小364M,可使用010editor编辑器来查看规模较大的数据。
loc-brightkite_totalCheckins.txt.gz 保存的是点的信息,数据集中每条信息都是一次签到信息,由用户id、签到时间、纬度、经度和位置ID五种属性构成。每个用户可签到多次,所以一个用户id可能对应多条信息。共有4747287条数据。
loc-brightkite_edges.txt.gz保存的是每条边的信息。有两个端点的id表示一条边。共有428156行数据。
SNAP说明Brightkite数据集有58228个点和214078条边。
需要注意的是SNAP的说明并不准确,实际的点的个数要少于58228个,虽然在点集中,点的编号从0到58227,但其中缺少了一些编号。点集中不存在的点可能会出现在边集中。比如:点集中没有编号为58223的点,但在边集中58212与58223中有一条边。在处理数据时,如果点集中的点不存在,那么就认为边集中没有对应的边,即便有也不考虑。
数据格式
点集数据格式
58220 2009-01-23T23:23:27Z 33.855255 35.578156 6ba679dce99c11dd8e2f003048c10834
58220 2009-01-22T10:08:12Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58221 2008-12-29T02:38:35Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58222 2009-01-23T02:30:34Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58224 2009-01-03T15:06:54Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58225 2009-01-20T13:58:14Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58226 2009-01-20T13:30:09Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
58227 2009-01-21T00:24:35Z 33.833333 35.833333 9f6b83bca22411dd85460384f67fcdb0
边集数据格式
58220 58226
58221 58205
58222 58210
58223 58212
58224 58219
58225 58220
58225 58226
58225 58227
58226 58220
58226 58225
58227 58225