一行配置,大幅减少Python爬虫的流量占用

在通过Chrome访问HTTPS的地址时,我们会发现Chrome的Accept-Encoding这个Header的内容是gzip, deflate, br,这里br对应的是brotli压缩算法,支持br的服务器返回的Content-Encodingheader的内容就是br。brotli压缩算法的压缩效率相对于gzip要高很多,这篇文章中提到,使用brotli时,html文件体积比gzip小21%,js文件比gzip比小15%,css文件比gzip小25%。

从2015年到现在brotli已经得到了大量的网站,CDN服务商和建站服务的支持。所以使用brotli不仅仅可以减少服务器的流量占用,对于大规模爬虫应用来说,在发送请求时在Accept-Encoding这个Header中加上br,同样也可以客观的减少使用的流量。

对于Python爬虫来说,最为常用的请求库是requests和HTTPX,如何让它们启用对brotli的支持呢?

实际上非常简单,在requests的2.26.0版本之后,在HTTPX的0.7.0版本之后,都已经针对brotli进行了支持。只需要保证在现有的Python环境中安装了brotli的相关库,brotli或者brotlipy,那么这两个web请求库就会自动在Accept-Encoding这个Header中加上br,并不需要对代码做任何调整,非常简单。

所以对于Python爬床来说,支持brotli只需要用一行代码简单的安装上brotli或者brotlipy即可:

复制代码
pip install brotli

或者

复制代码
pip install brotlipy

这样的话,就可以直接大量减少爬虫的流量。如果在使用像AWS这样的以流量计费的云服务或者代理服务的话,这一部分的流量就能够可观的节约流量费用。

题外话

在此疾速成长的科技元年,编程就像是许多人通往无限可能世界的门票。而在编程语言的明星阵容中,Python就像是那位独领风 骚的超级巨星, 以其简洁易懂的语法和强大的功能,脱颖而出,成为全球最炙手可热的编程语言之一。


Python 的迅速崛起对整个行业来说都是极其有利的 ,但“人红是非多”,导致它平添了许许多多的批评,不过依旧挡不住它火爆的发展势头。

如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!

学习资源推荐

除了上述分享,如果你也喜欢编程,想通过学习Python获取更高薪资,这里给大家分享一份Python学习资料。

这里给大家展示一下我进的兼职群和最近接单的截图

兼职群

私单

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取,也可以内推兼职群哦~

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

### 1.Python学习路线

image-20230619144606466

python学习路线图1

2.Python基础学习
01.开发工具

02.学习笔记

在这里插入图片描述

03.学习视频

在这里插入图片描述

3.Python小白必备手册

图片

4.数据分析全套资源

在这里插入图片描述

5.Python面试集锦
01.面试资料

在这里插入图片描述

在这里插入图片描述

02.简历模板

在这里插入图片描述

因篇幅有限,仅展示部分资料,添加上方即可获取👆

------ 🙇‍♂️ 本文转自网络,如有侵权,请联系删除 🙇‍♂️ ------

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值