手把手教你写网络爬虫（2）：迷你爬虫架构

最新推荐文章于 2021-01-14 21:35:00 发布

Python开发者

最新推荐文章于 2021-01-14 21:35:00 发布

阅读量1.2k

点赞数 1

（点击上方公众号，可快速关注）

来源：拓海

http://www.cnblogs.com/tuohai666/p/8853601.html

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

介绍

大家好！回顾上一期，我们在介绍了爬虫的基本概念之后，就利用各种工具横冲直撞的完成了一个小爬虫，目的就是猛、糙、快，方便初学者上手，建立信心。对于有一定基础的读者，请不要着急，以后我们会学习主流的开源框架，打造出一个强大专业的爬虫系统！不过在此之前，要继续打好基础，本期我们先介绍爬虫的种类，然后选取最典型的通用网络爬虫，为其设计一个迷你框架。有了自己对框架的思考后，再学习复杂的开源框架就有头绪了。

今天我们会把更多的时间用在思考上，而不是一根筋的coding。用80%的时间思考，20%的时间敲键盘，这样更有利于进步。

640?wx_fmt=jpeg

语言&环境

语言：带足弹药，继续用Python开路！

640?wx_fmt=jpeg

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

一个迷你框架

下面以比较典型的通用爬虫为例，分析其工程要点，设计并实现一个迷你框架。架构图如下：

640?wx_fmt=jpeg

代码结构：

640?wx_fmt=png

config_load.py 配置文件加载

crawl_thread.py 爬取线程

mini_spider.py 主线程

spider.conf 配置文件

url_table.py url队列、url表

urls.txt 种子url集合

webpage_parse.py 网页分析

webpage_save.py 网页存储

看看配置文件里有什么内容：

spider.conf

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

url_table.py

640?wx_fmt=png

Step 3. 记录哪些网页已经下载过的小本本——URL表。

在互联网上，一个网页可能被多个网页中的超链接所指向。这样在遍历互联网这张图的时候，这个网页可能被多次访问到。为了防止一个网页被下载和解析多次，需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候，我们就可以跳过它。

crawl_thread.py

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

Step 5. 页面分析模块

从网页中解析出URLs或者其他有用的数据。这个是上期重点介绍的，可以参考之前的代码。

Step 6. 页面存储模块

保存页面的模块，目前将文件保存为文件，以后可以扩展出多种存储方式，如mysql，mongodb，hbase等等。

webpage_save.py

640?wx_fmt=png

写到这里，整个框架已经清晰的呈现在大家眼前了，千万不要小看它，不管多么复杂的框架都是在这些基本要素上扩展出来的。

下一步

基础知识的学习暂时告一段落，希望能够帮助大家打下一定的基础。下期开始为大家介绍强大成熟的爬虫框架Scrapy，它提供了很多强大的特性来使得爬取更为简单高效，更多精彩，敬请期待！

看完本文有收获？请转发分享给更多人

关注「Python开发者」，提升Python技能

640?wx_fmt=png

Python开发者

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。