python爬取qq群成员_Python爬取QQ群群员

本文介绍了一种使用Python和Selenium爬取QQ群成员信息的方法,以判断群内成员活跃度。通过登录QQ空间,获取群成员的说说、照片和日志数量,从而区分活号和死号。最终,代码成功访问70个活跃账号,71个访问受限账号,853个疑似死号账号。
摘要由CSDN通过智能技术生成

昨天发现了一个群中人虽然很多,有一千人,但是没有几个人说话,群中一位朋友说有许多人是死号,我好奇去看了看,发现确实如此,有许多人的空间中说说,照片,日志都是0,访客只有几百,甚至几十,想通过学过的Python做一点事,思路是通过Python+selenium通过浏览器动态登录qq空间,然后通过selenium的find_elements_by_class_name动态获取网页的内容中qq成员的网址,然后存入数组,加载完后,遍历数组中每一个qq成员去加载成员空间网址,之后,通过find_element_by_id得到每个成员的说说,照片,日志数量,当然有的空间限制非好友访问,抓取不到,默认为是活号。还有的空间有自定义空间,与其他空间不同,也抓取不到数据,默认为是活好。只有说说,照片,日志数量都是0的号,我们认为是死号。

于是用Python写了代码查看,结果如下:

其中success:70是访问对方空间成功并且说说,照片,日志的数量不全为0,有70人。

fail:71是访问权限受限,有71人。false:853是访问对方空间成功并且说说,照片,日志的数量全为0,有853人。这说明这个群有853死号,这些号的qq号大多数是10位,以3开头,应该是买来的。

首先:

安装Python3,32位的先,去官网下,然后去找一个集成开发环境(IDE),我安装的pycharm。现在可以抓取一些静态网页了,记住(Python2中urllib2,在Python3中是urllib,自己查),我首先通过浏览器的开发人员工具(快捷键F12)去观看源代码,如图:

查找源代码特征(审查元素是一个好东西,用审查元素能节省你查找信息的时间),发现了一些特征,见图:

每个成员的网址在href中,而且他们都有共同的class,这一点我们可以利用,想到这里,是不是大功告成了?很遗憾,远远不够,我试着获取,却发现没有这个东西。这个文件是动态加载的,跟ajax有关系,(现在许多网页都是动态加载,urllib的作用不如以前,用selenium可以),selenium是什么东西?Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。selenium就是一个自动化测试工具。现在有三种方法获取成员的href:直接在开发人员工具中获取,复制到一个文本文件中,然后通过代码读取文件,正则匹配【reg = r'href="http://user.qzone.qq.com/\d{8,1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值