第12章 服务器采集
前面介绍的都是本机上的网络爬虫,包括如何获取网页、如何解析网页上的数据以及将数据存储在文件或数据库中。除此之外,还介绍了在遇到爬虫问题的时候的各种解决方法。
本章将介绍一种方法,能够解放你的计算机,让爬虫程序运行在“云”上,也能够让你随意改变自己的IP地址,进而走出爬虫被封IP的困境。
目录
12.1 为什么使用服务器采集
经过前几章的学习,大家可能已经习惯在本机的Jupyter上写爬虫程序了。如果是小规模的爬虫或测试爬虫程序,这也许已经绰绰有余。但当编写大规模的爬虫程序时,在服务器上部署爬虫就不可避免了。使用服务器采集有两大原因:
(1)大规模爬虫的需要。
(2)防止IP地址被封杀。
12.1.1 大规模爬虫的需要
你知道世界上最大的网络爬虫是什么吗?答案是搜索引擎。
根据谷歌官方网站的统计数字,谷歌搜索引擎已经收录了超过130万亿个网页,而且还在持续而迅速地增长中,这占用了超过100PB(等于100000TB)的存储。
本书中的爬虫程序在谷歌搜索引擎面前就像是地球上的一只小蚂蚁。也许我们的爬虫