基础爬虫框架

最新推荐文章于 2024-04-28 21:43:22 发布

qq_45612184

最新推荐文章于 2024-04-28 21:43:22 发布

阅读量265

点赞数 2

文章标签： python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45612184/article/details/107524753

版权

基础爬虫框架）

python 基础爬虫框架

python 基础爬虫框架

本人重温了此部分内容，为加深印象，写下此篇博客！看官图一乐。

URL管理器

有两个url集合：未爬取url集合与已爬取url集合。

通过set（）设置不重复
每从未爬取URL集合中提取一个URL，必须将此URL放入已爬取URL集合中

有一个判断函数：判断已爬取集合不为空
有一个增添单个新URL的函数
有一个增添URL集合的函数：需用到上述的方法

HTML下载器

需用到requests对根URL进行爬取

HTML解析器

对下载的HTML文本进行解析，获取想要的内容（data+URL），新的URL返回到URL管理器的未爬取URL集合中，也可同时与data进行下一步的存储。
我一般采用Beautifulsoup

数据存储器

接受来自HTML的数据并存储在内存（一个store_data函数）
存储形式有多种：excel，csv，html，数据库等（数据展示output函数）
存储方式：数据量大时：采用分批存储，每获取一定数据就存储

爬虫调度器

对上述四种模型进行初始化并统一调度：调度的一般顺序：
先将根URL放入未爬取的URL集合中
while循环内：URL管理器，获取根URL（集合）
HTML下载器
HTML解析器（新的URL放入URL管理器中）
数据存储器

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基础爬虫框架

基础爬虫框架）python 基础爬虫框架URL管理器HTML下载器HTML解析器数据存储器爬虫调度器python 基础爬虫框架本人重温了此部分内容，为加深印象，写下此篇博客！看官图一乐。URL管理器有两个url集合：未爬取url集合与已爬取url集合。通过set（）设置不重复每从未爬取URL集合中提取一个URL，必须将此URL放入已爬取URL集合中有一个判断函数：判断已爬取集合不为空有一个增添单个新URL的函数有一个增添URL集合的函数：需用到上述的方法HTML下载器需用到requ
复制链接

扫一扫

qq_45612184 CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

109万+: 周排名

169万+: 总排名

8160: 访问

: 等级

132: 积分

0: 粉丝

5: 获赞

3: 评论

22: 收藏

私信

关注

热门文章

最新评论

58同城反爬虫机制及处理
Qiuxingshandian: 你使用的是免费的还是买的
58同城反爬虫机制及处理
慕飒潇湘: 我使用代理ip也不管用
58同城反爬虫机制及处理
m0_51703939: 你好，我想问一下这段代码是加在爬虫58代码的前面使用吗？还是如何使用呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。