python网络爬虫的简单架构

本文介绍了Python网络爬虫的简单架构,包括爬虫客户端、URL管理器、网页下载器和网页解析器。URL管理器负责URL的管理和避免重复爬取,网页下载器下载网页并转为字符串,解析器则提取有价值数据和新的URL,形成一个持续运行的循环。
摘要由CSDN通过智能技术生成


  1、首先需要一个爬虫客户端来启动爬虫或者监视爬虫的运行情况

  2、URL管理器对将要爬取的URL和已爬取的URL进行管理,对URL管理的目的是为了避免重复爬取和循环爬取;从URL管理器中可以取出一个待爬取的URL传送给网页下载器,

网页下载器会将网页下 载下来存储成一个字符串,这个字符串会传送给网页解析器进行解析;一方面会解析出有价值的数据,
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值