抓取建立知乎大V之间的关系网络,大V之间的关系真的是错综复杂啊!实现思路是以一个大V为起点,不断的往上抓取关注列表,用 Neo4j 结合 Mysql 存储用户信息和用户之间的关系,Neo4j 存储人物关系,Mysql 存储用户的基本信息,这样使 Neo4j 内容不会太多,导致后期存储速度很慢。
数据粗略看一下就是这个样子的,橙色表示的是知乎用户,蓝色箭头线表示是用户之间的关注和被关注的关系,限制100个点如下图:
00. 谁是知乎上影响力最大的人?我们可以以粉丝的粉丝为评判标准,计算出关注某个人的所有大V的粉丝总和,和大V的数量,找出知乎上第二层粉丝数最多的人,第二层大V数量最多的人。
粉丝超过10000的大V关注最多的人前16位如下:其中黄继新被 1288 位粉丝超过 10000 的大V关注,而粉丝超过 10000 的大V 共计有3089 位,占了 42%,
而从关注的人的粉丝量来看,黄继新的第二层粉丝数达到了 81221559 人,紧接着是张佳玮的 71453074 人,查了一下我的只有 15125336 哭。
01. 我可以查一查有多少粉丝超过1W的 大V 关注了我,一共201个粉丝超过 1W 的大V关注了我,这 201 个大V 之间有 5169 条关系,也就是说每个大V 差不多会有 26 个关系,大V 之间的关系还是挺复杂哒!
然而更加精确一点,关注我的有多少粉丝过 10W 的呢?我来瞧一瞧:一共23个,一共24个人创造了249条关系,平均一个人有10 条人物关系,我的圈子好小啊!
02. 十万粉以上的大V关系更加复杂,十万粉丝以上的用户目前有 298 名,却贡献了17548条人物关系,也就是说十万粉丝以上的用户平均每个人能认识到 58 个人左右,我落后了。
03.找到我想认识的人,我想认识知乎女神 @王诺诺 显然她没关注我,那么我就找找有没有王诺诺关注的人关注了我,说不定可以介绍我认识呢?只需要以女神为起点,寻找出两层关系的并且最终指向我的关系网络。麻烦 @宋世泊 @云天外 @邹昕 @任易 赶紧给我介绍介绍!