盘点一些网站的反爬虫机制

最新推荐文章于 2023-12-18 13:49:24 发布

极客猴

最新推荐文章于 2023-12-18 13:49:24 发布

阅读量2.5k

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chanql123/article/details/100103159

版权

640

题图：by natgeo from Instagram

阅读文本大概需要 4 分钟。

因为 Python 语法简介以及强大的第三方库，所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集，也就是将互联网中的数据采集过来。

网络爬虫的难点其实并不在于爬虫本身。而是网站方为了避免数据被爬取，增加了各种各样的反爬虫措施。如果想要继续从网站爬取数据就必须绕过这些措施。因此，网络爬虫的难点在于反爬的攻克和处理。那么本文主要介绍一些网站的反爬虫措施。

妹子图

这个网站的反爬虫机制比较简单。当我们使用网络请求库下载图片时，该网站会对检查每个 HTTP 请求的 headers 头部中 Referer 字段。它判断该字段是否为空，如果字段为空，那么不会返回正常显示的图片，而是返回一张带有“图片来自妹子网，请勿盗链”字样的图片。

遇到这种机制，突破也是比较简单。对每个 HTTP 请求，将页面的 url 地址填充到 Referer 字段中。

豆瓣

几乎所有的爬虫新手都会爬取豆瓣练练手。但是豆瓣还是保持开放的态度，反爬虫机制做得还是很人性化。它的反爬虫机制大概如下：

1、在没有携带 cookie 的情况下，如果某个 IP 短时间高并发请求网站，该 IP 会立马被封。当 IP 被封，登录豆瓣网站会解封。

面对这么体谅新手的网站，我们要下手不能那么猛。我们只要在代码中登录账号，同时降低并发数，再随机延迟等待一段时间。我们的爬虫程序就不会被封杀了。

拉勾网

拉勾网站刚出来的时候，反爬虫机制还没有现在这么严格。估计爬取网站的人多了起来，网站管理员为了保护服务器增加一些手段。该网站的反爬虫机制大概是这样子。

1、在没有登录的情况下，程序只能连续访问 3 个 Url。如果再继续访问，网站会将链接重定向，然后提示我们登录。

针对这样的爬虫机制，我们只能使用 IP 代理池来突破。

汽车之家

汽车之家论坛的反爬虫机制就比较高级。它利用前端页面自定义字体的方式来实现反爬的技术手段。具体使用到是 CSS3 中的自定义字体(@font-face)模块，自定义字体主要是实现将自定义的 Web 字体嵌入到指定网页中去。这就导致我们去爬取论坛帖子的口碑时，获取到的返回文本中每隔几个字就出现一个乱码符号。

每次访问论坛页面，其中字体是不变的，但字符编码是变化的。因此，我们需要根据每次访问动态解析字体文件。

具体可以先访问需要爬取的页面，获取字体文件的动态访问地址并下载字体，读取 js 渲染后的文本内容，替换其中的自定义字体编码为实际文本编码，就可复原网页为页面所见内容了。

最后说句良心话，我们爬取别人网站的数据，要在不损害别人网站的情况下进行。所以建议大家不要在网站访问高峰的时候爬取数据，尽量选择在晚上进行爬取。同时设置延时操作降低并发数。

如果你觉得文章还不错，请大家点赞分享下。你的肯定是我最大的鼓励和支持。

推荐阅读：

使用 Python 生成二维码

想提高爬虫效率？aiohttp 了解下

Django 2.1 版本已经来袭

不积跬步，无以至千里

640

关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。