常见的反爬策略及解决方案

K哥爬虫

于 2021-05-25 14:32:55 发布

阅读量1.9k

点赞数 2

分类专栏： # 快代理使用常见问题文章标签： python 网络爬虫数据采集代理ip

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kdl_csdn/article/details/117255569

版权

快代理使用常见问题专栏收录该内容

6 篇文章 5 订阅

订阅专栏

常见的反爬策略及解决方案

常见的反爬策略及解决方案

网络爬虫技术是指按照一定的规则，自动地抓取万维网信息的技术。爬虫一般分为数据采集，处理，储存三个部分。

一般网站从三个方面反爬虫：a.用户请求的Headers；b.用户行为；c.网站目录和数据加载方式。大多数网站都从a、b来反爬虫。一些应用ajax的网站会采用c，增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。

1.最常见的反爬虫策略——用户请求的Headers。

解决方法：伪装header。

大部分网站都会对用户请求头Headers的User-Agent进行检测，部分网站会对Referer进行检测。对于这类反爬可以直接在代码中添加Headers，将浏览器的User-Agent复制到代码的Headers中；

或者将Referer值修改为目标网站域名。修改或者添加Headers就能很好地绕过检测Headers的反爬。
快代理获取UA

2.基于用户行为反爬虫

部分网站是通过检测用户行为反爬，例如同一IP短时间内多次访问某个页面，或者同一账户短时间内进行多次相同操作。

解决方法：

对于“同一IP短时间内多次访问某个页面”的情况，使用IP代理就可以解决。也可以先爬取网上免费的代理ip，检测后将可用的ip全部保存起来。这样以后可以有规律地更换ip进行爬虫（如：每请求几次更换一个ip）；
对于“同一账户短时间内进行多次相同操作”的情况，可以在每次请求后随机间隔一定时间再进行下一次请求。

爬虫推荐：
私密代理 规格丰富，覆盖爬虫工作者需求场景；
私密代理-集中提取
隧道代理 自动转发IP，无需手动提取代理IP，多个转发周期供您选择。
隧道代理-自动切换ip
另外个人中心可以实时监控IP使用情况（IP使用统计、并发、带宽、报错分析等等）；

联系客服了解详情并领取4小时免费试用。

3.动态页面的反爬虫

上述的几种情况多是静态页面，对于另一部分网站是需要通过ajax请求得到我们需要爬取的数据。

解决方法：Selenium+PhantomJS

Selenium：自动化web测试解决方案，完全模拟真实的浏览器环境，完全模拟基本上所有的用户操作；

PhantomJS ：一个没有图形界面的浏览器。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
常见的反爬策略及解决方案

常见的反爬策略及解决方案常见的反爬策略及解决方案网络爬虫技术是指按照一定的规则，自动地抓取万维网信息的技术。爬虫一般分为数据采集，处理，储存三个部分。一般网站从三个方面反爬虫：a.用户请求的Headers；b.用户行为；c.网站目录和数据加载方式。大多数网站都从a、b来反爬虫。一些应用ajax的网站会采用c，增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。1.最常见的反爬虫策略——用户请求的Headers。解决方法：伪装header。大部分网站都会对用户请求头Headers的Use
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。