基础爬虫框架

python 基础爬虫框架

本人重温了此部分内容,为加深印象,写下此篇博客!看官图一乐。

URL管理器

有两个url集合:未爬取url集合与已爬取url集合。

  1. 通过set()设置不重复
  2. 每从未爬取URL集合中提取一个URL,必须将此URL放入已爬取URL集合中

有一个判断函数:判断已爬取集合不为空
有一个增添单个新URL的函数
有一个增添URL集合的函数:需用到上述的方法

HTML下载器

需用到requests对根URL进行爬取

HTML解析器

对下载的HTML文本进行解析,获取想要的内容(data+URL),新的URL返回到URL管理器的未爬取URL集合中,也可同时与data进行下一步的存储。
我一般采用Beautifulsoup

数据存储器

接受来自HTML的数据并存储在内存(一个store_data函数)
存储形式有多种:excel,csv,html,数据库等(数据展示output函数)
存储方式:数据量大时:采用分批存储,每获取一定数据就存储

爬虫调度器

对上述四种模型进行初始化并统一调度:调度的一般顺序:
先将根URL放入未爬取的URL集合中
while循环内:URL管理器,获取根URL(集合)
HTML下载器
HTML解析器(新的URL放入URL管理器中)
数据存储器

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值