人人好友数据挖掘(4)--根据抓取的数据,绘制好友网络图

from igraph import *
import re
#data in \data is all the friends info ,include uid and uname
#data in \coredata is the relations between friends
fp = open("data","r")
fp1 = open("coredata","r")

#read friends info,store each of them to one Node in Graph
allLine = fp.readlines()
g = Graph(len(allLine))
for eachline,i in zip(allLine,range(0,len(allLine))):
    list = re.split(' ',eachline)
    g.vs[i]["uid"] = list[0]
    g.vs[i]["name"] = list[1]

#read relations ,and add edges in Graph as the relations	
for eachline in fp1.readlines():
    list = re.split(' ',eachline)
    if len(list) == 1:
        continue
    if len(g.vs.select(uid_eq = list[0])) == 0:
        continue
    begin = g.vs.select(uid_eq = list[0])[0].index #select method returns a vertex sequence
    for i in range(1,len(list)):  
        if len(g.vs.select(uid_eq = list[i])) != 0:
           g.add_edges([(begin,end)])
	
#set the properties of the drawing ,then draw the Graph
print g
g.simplify()
print g
layout = g.layout("fr")
visual_style = {}
visual_style["vertex_size"] = 5
visual_style["vertex_label"] = g.vs["name"]
visual_style["vertex_label_size"] = 2
visual_style["layout"] = layout
visual_style["bbox"] = (900,900)
visual_style["edge_width"] = 1
visual_style["edge_color"] = "Gray"
plot(g,"socail_network.pdf",**visual_style)

发现使用pycurl登陆人人网,很不稳定。之前可能成功登陆的验证方式突然就没有用了。最好,每次当不能登陆的时候,通过wireshark抓包,分析下人人对密码帐号表单的处理,与服务器反馈的信息。修改pycurl登陆的流程。

网络图的绘制是比较简单的,关键在于将之前抓取的好友ID,与好友之间的好友关系读取出来。每个好友作为图中的一个节点,好友之间的好友关系作为节点之间的边。最后使用plot函数进行绘制。其中有很多可以调节的参数,使得绘制的好友关系图可视化程度更高。

这个实现绘制的难点在于igraph包的使用,具体可以参照igraph的python文档,介绍还是很是详细的。其中一个比较重要的内容就是,关于图的vs属性,vs表示的是vertexes sequence是图中所有节点的一个列表。

for eachline,i  in  zip(allLine,range(0,len(allLine))):
    list = re.split(' ',eachline) g.vs[i]["uid"] = list[0]
    g.vs[i]["name"] = list[1]


然后,对于vs中的每一个元素都是一个字典,字典的key一般用来表示节点的属性名。然后,当需要从节点集合中获取这些属性的值得时候,可以使用

g.vs.select(uid_eq = list[0])select

能对每一个属性进行搜索,比如这里搜索的就是uid属性,然后uid_eq表示的是寻找uid等于list[0]的所有节点,这个函数返回的是一个列表。在这个例子里边返回的只有一个元素。

end = g.vs.select(uid_eq = list[i])[0].index

这里只寻找所有节点中,uid与list[i]中保存的uid相等的点的编号。这样就能根据好友uid之间的关系,绘制出在图上对应的边。我们储存的数据有,data中的好友uid与好友的name,以及coredata中的好友uid的直接的好友关系。coredata中的数据是这样存储的,每一个行都是一系列uid1,uid2,uid3...uidn.其中这n个uid都是“本人”的好友的uid。这一行表示uid1,与uid2,..uidn也是好友。那么在“本人”的好友关系图上,就需要有(uid1,uid2),(uid1,uid3),...(uid1,uidn)这些边。这里uid是唯一能够标识好友的信息。(要理解这个可以参照前几篇对于数据捕获的过程)。所以,要在图上绘制(uid1,uid2)这样的边,就首先要找到uid1,uid2的节点编号即vertex的index,这个index值是变化的,每当有删除或者插入,一个具体节点的index可能会发生变化。所以,就要使用vs.select这种方法来找到具有目标属性的节点的索引,进而才能绘制出边。

最后要值得注意的一点就是,如果在linux下安装igraph,安装还是比windows下容易很多的。windows下如何安装,请查阅参考资料1。linux下只需要安装python-igraph,pyCairo,以及对应的Cairo库就可以实现了。但是linux下的plot必须要指定输出文件才行,绘制的图形是不能像windows下弹出的。

最后上传一张,最后绘制的我的人人好友关系图。其中每个红色点代表一个好友,每个灰色的线代表两个人之间是好友关系。绘制图使用的是force-directed算法,表现了好友之间的聚合情况。


 

 


参考资料:

(1)一个比较好的igrahp的安装使用教程,http://www.cs.rhul.ac.uk/home/tamas/development/igraph/tutorial/tutorial.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值