反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

最新推荐文章于 2024-04-15 21:43:10 发布

DataCastle

最新推荐文章于 2024-04-15 21:43:10 发布

阅读量4.4k

点赞数

分类专栏：干货资源文章标签：爬虫数据反爬虫+ python+

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DataCastle/article/details/78622448

版权

干货资源专栏收录该内容

49 篇文章 5 订阅

订阅专栏

1.Headers限制

这应该是最常见的，最基本的反爬虫手段，主要是初步判断你是否是真实的浏览器在操作。

这个一般很好解决，把浏览器中的Headers信息复制上去就OK了。

值得注意的是，很多网站只需要userAgent信息就可以通过，但是有的网站还需要验证一些其他的信息，比如知乎，有一些页面还需要 authorization 的信息。所以需要加哪些Headers，还需要尝试，可能还需要Referer、Accept-encoding等信息。

常用的请求头

在代码中添加 Headers 信息

2.IP限制

限制IP也是很多网站反爬虫的初衷，有些人随便写一个循环，就开始暴力爬取，确实会给网站服务器带来很大的负担，而这种频繁的访问，显然也不会是真实用户行为，索性果断把你封掉。

这种情况，你可以遵守规则，把你爬取的速度变慢，每次爬取停个几秒就行了。如果爬取的数据量不大，其实也浪费不了多少时间，反正你也可以利用这段时间做做其他事情，或者好好思考一下人生。

time.sleep(5)

当然，你也可以通过不断换IP的形式来绕过这种限制，网上很多免费的IP资源，你可以自己搭一个IP池，爬到一定的量就切换IP。

3.动态加载

通过异步加载，一方面是为了反爬虫，一方面也可以给网页浏览带来不同的体验，实现更多的功能。很多动态网站都是通过ajax或者JavaScript来加载请求的网页。

在遇到动态加载的网页的时候就需要去分析ajax请求，一般情况都能直接找到包含我们想要数据的json文件。

如果网站给文件加密，那么可以通过selenium+phantomJS框架，调用浏览器内核，并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。理论上selenium是比较全能的爬虫方案，因为这个确实算是真实的用户行为。除非网站的反爬虫严苛到宁愿误杀的地步。

selenium爬取淘宝

4.验证码

我们在很多网站会遇到，如果请求量大了之后就会遇到验证码的情况。最让人诟病的12306，其实也是一定程度上的防止非正当请求的产生。

对于验证码，可以通过OCR来识别图片，Github上面有很多大神分享的代码可以用，可以去看看。

5.减少返回的信息

最基本的隐藏真实的数据量，只有不断加载才能刷新信息。还有的就更变态，会只给你展示一部分信息，人都看不到，爬虫也无能为力。比如CNKI，你每次搜索能够得到的内容就是非常有限的。这个貌似没有很好的解决办法，但是这么干的网站毕竟是少数，因为这种方式，其实在某种程度上是牺牲了一部分真实用户的体验。

6.返回伪造的信息

这个真的是程序员何苦为难程序员。反爬虫的工程师也是煞费苦心，一方面是不让真实的数据被大规模爬取，另一方面也给你后期的数据处理增加负担。如果数据伪造的好，可能你真的不容易发现自己爬的是假数据，当然只能依靠你后期去清洗这些数据了。

如果想系统学习爬虫和反爬虫，可以看看我们的课程：Python爬虫：入门+进阶

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

1.Headers限制这应该是最常见的，最基本的反爬虫手段，主要是初步判断你是否是真实的浏览器在操作。这个一般很好解决，把浏览器中的Headers信息复制上去就OK了。值得注意的是，很多网站只需要userAgent信息就可以通过，但是有的网站还需要验证一些其他的信息，比如知乎，有一些页面还需要 authorization 的信息。所以需要加哪些Headers，还需要尝试，可能还需要Referer、A
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。