你可能不知道的反爬虫知识

最新推荐文章于 2023-03-20 16:36:46 发布

猿猴望月

最新推荐文章于 2023-03-20 16:36:46 发布

阅读量982

点赞数 2

文章标签：爬虫 python 数据挖掘前端 js

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s_saviour/article/details/122677032

版权

在这个人均python时代，产品运营同学也能分分钟写出一个爬虫来产出数据报表，我这段时间也是想要写一个爬虫来刷一刷我发的帖子的点击率，从而开始调查起了爬虫，又调查起了反爬，又看起了反反爬……现在已经被精神招安了！今天就和大家一起讨论一下螺旋上升，永无止尽的反爬道路。

首先，我们能用爬虫做到哪些事情呢？根据调查大头一定是抢火车票（12306是全国最难爬的网站），还有像是预定场地、操纵僵尸粉、比价、刷点击率、分析用户数据达到个人目的等。

其实一般的公司可能根本没有采用反爬措施，还有一些网站可能只对数字做了字体映射，并不会更换字体文件或算法，但我们这篇文章的前提是保护有价值的数据，所以要尽可能的增加黑客们爬数据的成本，另一方面也是降低服务器的压力。

我们把爬数据分为最主要的两种途径，爬接口和爬页面（SSR）。

爬接口的话一般采用网络封包截取工具来拦截请求，代码模仿请求来进行大批量的数据获取。而爬页面则会使用Selenium或者puppeteer来模仿人类行为获得网页，从中摘取特定的信息。对于爬页面目前还会有元素匹配和OCR识别两种主流的内容匹配方式。元素匹配是根据HTML或者页面上的元素信息通过元素选择器，如正则、xpath等进行选择并匹配；而OCR识别则是将网页当做图片进行文本识别，并根据文本的展示特征，如颜色、尺寸、位置等进行匹配。

这两种途径会有一些共通的防范措施：

首先最基础的是校验user-agent、referer等请求头。虽然绝大部分成熟的爬虫会对这些header进行处理，但是这也是必须要去做的，同时也帮助我

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
你可能不知道的反爬虫知识

在这个人均python时代，产品运营同学也能分分钟写出一个爬虫来产出数据报表，我这段时间也是想要写一个爬虫来刷一刷我发的帖子的点击率，从而开始调查起了爬虫，又调查起了反爬，又看起了反反爬……现在已经被精神招安了！今天就和大家一起讨论一下螺旋上升，永无止尽的反爬道路。首先，我们能用爬虫做到哪些事情呢？根据调查大头一定是抢火车票（12306是全国最难爬的网站），还有像是预定场地、操纵僵尸粉、比价、刷点击率、分析用户数据达到个人目的等。其实一般的公司可能根本没有采用反爬措施，还有一些网站可能只对数字做了字体映
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。