一个简单的分布式的知乎爬虫

本文介绍了一个用于抓取知乎用户详细信息的分布式网络爬虫,包括原理、模块功能、额外安装的库和应用、配置设置以及运行和部署方法。主机负责任务分发,从机负责网页抓取,使用Redis和MongoDB作为数据存储,依赖requests、BeautifulSoup等库进行网页请求和解析。
摘要由CSDN通过智能技术生成

源代码地址:https://github.com/WiseDoge/Spider_Hub/tree/master/ZhiHu

一个分布式的网络爬虫,用于抓取知乎的用户详细信息,包括用户名、行业、位置、毕业院校、介绍、关注者、关注人等。

原理

  • 主机
    负责分发任务。从起始位置开始,将当前用户的所有关注者提取出来,并压入Redis任务队列,然后随机的进入到其中一个关注者的主页,递归上述操作。

  • 从机
    负责抓取网页。连接至Redis队列,从中取出一个用户的URL,然后对URL的内容进行抓取,并保存到MongoDB中,然后循环上述操作。

各模块功能

  • Master.py:主机的入口,包含了主机的抓取和去重策略。
  • Slave.py:从机的入口。
  • dbAPI.py:储存模块,用于将数据存入数据库。
  • login.py:登录模块,用于登录到知乎。
  • utils.py:工具模块。
  • Error.py:异常类
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值