python: 知乎大规模（34k）用户爬虫

NK_test

于 2016-05-06 14:51:25 发布

阅读量2.3w

点赞数 8

分类专栏： Linux基础及编程 Programming int the Linux environment 文章标签： python 爬虫 mongodb redis 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NK_test/article/details/51330971

版权

前些天学习python,完成了python练习册的大部分习题：https://github.com/Show-Me-the-Code/python（我的github上有习题代码，欢迎自取）。之后看到@salamer的一个python爬虫项目，觉得很不错。于是自己花了４天的时间完成了一个大规模爬取知乎用户信息的爬虫，由于个人网络原因，爬取12小时，获得了34k用户的信息（理论上可以爬全站的信息，可能时间要长一些，最好放在服务器上跑）并整理成直观的图表（文章末尾显示）。

好了，说一下主要的技术点：

（１）使用python的request模块获取html页面，注意要修改自己的cookie，使得我们更像是使用浏览器访问

（２）使用xpath模块从html中提取需要的关键信息（姓名，职业，居住地，关注人等）

（３）使用redis作为队列，很好的解决并发和大规模数据的问题（可以分布式）

（４）使用bfs宽度优先搜索，使得程序得以不断扩展持续搜索用户

（５）数据存储至no-sql数据库：mongodb（高效轻量级并且支持并发）

（６）使用python的进程池模块提高抓取速度

（７）使用csv,pandas,matplotlib模块进行数据处理（需要完善）

接下来我们进行仔细的分析：

（一）数据的获取

主要使用了python的request进行html的获取，另外，header中的cookie携带了我们的登陆信息，所以，按下你的F12将自己的cookie添加至程序中。

知乎上有很多水军，我们为了更加高

最低0.47元/天解锁文章

关注

8
点赞
踩
17

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。