如何让Python爬虫一天抓取100万张网页，2024年最新网易云java面试

最新推荐文章于 2024-05-04 10:54:10 发布

起飞程序员

最新推荐文章于 2024-05-04 10:54:10 发布

阅读量776

点赞数 6

分类专栏： 2024年程序员学习文章标签： python 爬虫 java

本文链接：https://blog.csdn.net/2201_75604341/article/details/137984248

版权

2024年程序员学习专栏收录该内容

289 篇文章 1 订阅

订阅专栏

本文分享了如何通过Python爬虫实现高效抓取，包括存储优化（如网页压缩和URL处理）、内存管理（使用BloomFilter减少URL占用）、反爬策略以及IP代理的adsl拨号技巧。同时提供了2024年最新Python学习资料包，强调系统化学习的重要性。

摘要由CSDN通过智能技术生成

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

本篇只关注如何让爬虫的抓取性能最大化上，没有使用scrapy等爬虫框架，就是多线程+Python requests库搞定。

对一个网站定向抓取几十万张页面一般只用解决访问频率限制问题就好了。对机器内存，硬盘空间，URL去重，网络性能，抓取间隙时间调优一般都不会在意。如果要设计一个单台每天抓取上百万张网页，共有一亿张页面的网站时，访问频率限制问题就不是最棘手的问题了，上述每一项都要很好解决才行。硬盘存储，内存，网络性能等问题我们一项项来拆解。

一、优化硬盘存储

所以千万级网页的抓取是需要先设计的，先来做一个计算题。共要抓取一亿张页面，一般一张网页的大小是400KB左右，一亿张网页就是1亿X200KB=36TB 。这么大的存储需求，一般的电脑和硬盘都是没法存储的。所以肯定要对网页做压缩后存储，可以用zlib压缩，也可以用压缩率更好的bz2或pylzma 。

但是这样还不够，我们拿天眼查的网页来举例。天眼查一张公司详情页的大小是700KB 。

在这里插入图片描述

对这张网页zlib压缩后是100KB。

在这里插入图片描述

一亿个100KB（9TB）还是太大，要对网页特殊处理一下，可以把网页的头和尾都去掉，只要body部分再压缩。因为一张html页面里和

大都是公共的头尾信息和js/css代码，对你以后做正文内容抽取不会影响（也可以以后做内容抽取时把头尾信息补回去就好）。

来看一下去掉头尾后的html页面大小是300KB，压缩后是47KB。

在这里插入图片描述

一亿张就是4T，差不多算是能接受了。京东上一个4T硬盘600多元。

二、优化内存，URL去重

再来说内存占用问题，做爬虫程序为了防止重复抓取URL，一般要把URL都加载进内存里，放在set()里面。拿天眼查的URL举例：

https://www.tianyancha.com/company/23402373

这个完整URL有44个字节，一亿个URL就是4G，一亿个URL就要占用4G内存，这还没有算存这一亿个URL需要的数据结构内存，还有待抓取URL，已抓取URL还保存在内存中的html等等消耗的内存。

所以这样直接用set()保存URL是不建议的，除非你的内存有十几个G。

一个取巧的办法是截断URL。只把URL：

https://www.tianyancha.com/company/23402373

的后缀:23402373放进set()里，23402373只占8个字节，一亿个URL占700多M内存。

但是如果你是用的野云主机，用来不断拨号用的非正规云主机，这700多M内存也是吃不消的，机器会非常卡。

就还需要想办法压缩URL的内存占用，可以使用BloomFilter算法，是一个很经典的算法，非常适用海量数据的排重过滤，占用极少的内存，查询效率也非常的高。它的原理是把一个字符串映射到一个bit上，刚才23402373占8个字节，现在只占用1个bit（1字节=8bit），内存节省了近64倍，以前700M内存，现在只需要10多M了。

BloomFilter调用也非常简单，当然需要先install 安装bloom_filter：

from bloom_filter import BloomFilter # 生成一个装1亿大小的

bloombloom = BloomFilter(max_elements=100000000, error_rate=0.1)

向bloom添加URL bloom.add(‘https://www.tianyancha.com/company/23402373’) #判断URL是否在bloombloom.contains(‘https://www.tianyancha.com/company/23402373’)

不过奇怪，bloom里没有公有方法来判断URL是否重复，我用的__contains__()方法，也可能是我没用对，不过判重效果是一样的。

三、反抓取访问频率限制

单台机器，单个IP大家都明白，短时间内访问一个网站几十次后肯定会被屏蔽的。每个网站对IP的解封策略也不一样，有的1小时候后又能重新访问，有的要一天，有的要几个月去了。突破抓取频率限制有两种方式，一种是研究网站的反爬策略。有的网站不对列表页做频率控制，只对详情页控制。有的针对特定UA，referer，或者微信的H5页面的频率控制要弱很多。

另一种方式就是多IP抓取，多IP抓取又分IP代理池和adsl拨号两种，我这里说adsl拨号的方式，IP代理池相对于adsl来说，我觉得收费太贵了。要稳定大规模抓取肯定是要用付费的，一个月也就100多块钱。

adsl的特点是可以短时间内重新拨号切换IP，IP被禁止了重新拨号一下就可以了。这样你就可以开足马力疯狂抓取了，但是一天只有24小时合86400秒，要如何一天抓过百万网页，让网络性能最大化也是需要下一些功夫的，后面我再详说。

至于有哪些可以adsl拨号的野云主机，你在百度搜”vps adsl”，能选择的厂商很多的。大多宣称有百万级IP资源可拨号，我曾测试过一段时间，把每次拨号的IP记录下来，有真实二三十万IP的就算不错了。

选adsl的一个注意事项是，有的厂商拨号IP只能播出C段和D段IP，110(A段).132(B段).3(C段).2(D段)，A和B段都不会变，靠C，D段IP高频次抓取对方网站，有可能对方网站把整个C/D段IP都封掉。

C/D段加一起255X255就是6万多个IP全都报废，所以要选拨号IP范围较宽的厂商。你要问我哪家好，我也不知道，这些都是野云主机，质量和稳定性本就没那么好。只有多试一试，试的成本也不大，买一台玩玩一个月也就一百多元，还可以按天买。

上面我为什么说不用付费的IP代理池？

因为比adsl拨号贵很多，因为全速抓取时，一个反爬做得可以的网站10秒内就会封掉这个IP，所以10秒就要换一个IP，理想状况下一天86400秒，要换8640个IP。

如果用付费IP代理池的话，一个代理IP收费4分钱，8640个IP一天就要345元。 adsl拨号的主机一个月才100多元。

adsl拨号Python代码

怎么拨号厂商都会提供的，建议是用厂商提供的方式，这里只是示例：

windows下用os调用rasdial拨号：

import os # 拨号断开

os.popen(‘rasdial 网络链接名称 /disconnect’) # 拨号

os.popen(‘rasdial 网络链接名称 adsl账号 adsl密码’)

linux下拨号：

import os # 拨号断开

code = os.system(‘ifdown 网络链接名称’)# 拨号

code = os.system(‘ifup 网络链接名称’)

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。**

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-ilkbpKyb-1713553188679)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！