Python爬虫架构5模板 | 你真的会写爬虫吗？

最新推荐文章于 2024-06-27 09:50:35 发布

Python 学习者

最新推荐文章于 2024-06-27 09:50:35 发布

阅读量1.2k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_38682860/article/details/90382373

版权

python 专栏收录该内容

1472 篇文章 280 订阅

订阅专栏

1、写在前面的话

咱们直接进入今天的主题---你真的会写爬虫吗？为啥标题是这样，因为我们日常写小爬虫都是一个py文件加上几个请求，但是如果你去写一个正式的项目时，你必须考虑到很多种情况，所以我们需要把这些功能全部模块化，这样也使我们的爬虫更加的健全。

2、基础爬虫的架构以及运行流程

首先，给大家来讲讲基础爬虫的架构到底是啥样子的？JAP君给大家画了张粗糙的图：

从图上可以看到，整个基础爬虫架构分为5大类：爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。

下面给大家依次来介绍一下这5个大类的功能：

1. 爬虫调度器：主要是配合调用其他四个模块，所谓调度就是取调用其他的模板。

2. URL管理器：就是负责管理URL链接的，URL链接分为已经爬取的和未爬取的，这就需要URL管理器来管理它们，同时它也为获取新URL链接提供接口。

3. HTML下载器：就是将要爬取的页面的HTML下载下来。

4. HTML解析器：就是将要爬取的数据从HTML源码中获取出来，同时也将新的URL链接发送给URL管理器以及将处理后的数据发送给数据存储器。

5.数据存储器：就是将HTML下载器发送过来的数据存储到本地。

3、实战爬取菜鸟笔记信息

差不多就介绍这么些东西，相信大家对整体的架构有了初步的认识，下面我简单找了个网站给大家演示一遍用爬虫架构来爬取信息：

（目标站点）

我们来获取上面列表中的信息，这里我就省略了分析网站的一步，如果大家不会分析，可以去看我之前写的爬虫项目。

首先，我们来写一下URL管理器（URLManage.py）

在这里主要就是两个集合，一个是已爬取URL的集合，另一个是未爬取URL的集合。这里我使用的是set类型，因为set自带去重的功能。

接下来，HTML下载器（HTMLDownload.py）

可以看到这里我们只是简单的获取了，url中的html源码

接着看HTML解析器（HTMLParser.py）

在这里，我们将HTML下载器的源码进行了分析和解析，从而得到了我们想要拿到的数据，如果BeautifulSoup不懂的可以去看一下我之前写的文章。

继续看，数据存储器（DataOutput.py）

大家可能发现我这里是将数据存储到一个html的文件当中，在这里你当然也可以存在Mysql或者csv等文件当中，这个看自己的选择，我这里只是为了演示所以就放在了html当中。

最后一个，爬虫调度器（SpiderMan.py）

相信这里大家都能看懂，我就是将前面我们写的四个模板在这里把它们调用了一下，我们运行后的结果：

4、总结

我们这里简单的讲解了一下，爬虫架构的五个模板，无论是大型爬虫项目还是小型的爬虫项目都离不开这五个模板，希望大家能够照着这些代码写一遍，这样有利于大家的理解，大家以后写爬虫项目也要按照这种架构去写，这样你的爬虫看起来就会更加的规范、健全。

Python 学习者

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫架构5模板 | 你真的会写爬虫吗？

1、写在前面的话咱们直接进入今天的主题---你真的会写爬虫吗？为啥标题是这样，因为我们日常写小爬虫都是一个py文件加上几个请求，但是如果你去写一个正式的项目时，你必须考虑到很多种情况，所以我们需要把这些功能全部模块化，这样也使我们的爬虫更加的健全。2、基础爬虫的架构以及运行流程首先，给大家来讲讲基础爬虫的架构到底是啥样子的？JAP君给大家画了张粗糙的图：从图上可以看到，整个基...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。