反爬虫措施

一、爬虫的原理

爬虫本质上就是用机器模仿人的行为操作,然后将数据获取下来的技术手段。一般爬虫和数据解析、大数据分析是分不开的,数据获取下来之后需要对数据进行分析。根据分析的结果决定下一步动作。

所以防爬虫就是:

1、区分机器和人

2、增加机器模拟人行为的难度

3、增加数据解析难度

 

二、如何区分机器和人

1、请求、访问的频率,一般来说人的访问频率一定是相对比较低的,所以如果某一个IP访问的频率过高,则必定是爬虫。

2、操作习惯,人的操作是离散的,有延迟的,而机器操作则更为精准,低延迟的。比如浏览网页时用户可能会鼠标点击,滑动多次才会获取到数据,而机器往往会更直接的获取到数据。

 

三、如何增加机器模拟人行为的难度

1、账号密码,系统必须登录才能获取数据,尽量减少不登陆的获取数据情况

2、Token方式,Token带有过期时间,过一段时间必须重新进行身份验证

3、验证码,数字图像验证码,算术验证码,点击顺序验证码,操作验证码(滑块、拼图),分类验证码(选择指定类型的图片)等等

4、请求信息验证,通过Cookie,Session, 请求头Header(Host,Refer,Origin,User-Agent等)增加响应标记,身份信息和判断请求信息是否是爬虫(成功率较低,一般会爬虫的都会模拟相同请求头

5、操作习惯,要求用户过一段时间必须进行一个随机操作,比如屏幕上动态出现一个气球,要求用户进行点击操作

6、身份认证,基于摄像头(人脸识别,虹膜识别),语言识别(如语言读出指定文字),手写字迹(根据手写字迹与预留字迹比较),指纹识别(移动端有操作可能性,PC端系统相对较难)

7、物理设备认证,如银行的UK,加密狗,U盘加密,RFID刷新,身份证读卡器等等

 

四、如何增加数据解析难度

1、数据如果是服务端数据,则可以采用加密,前端JS解密展示方式

2、数据是前端数据,则可以进行JS混淆,也可以是动态页面(当前VUE就是这种方式)

 

五、建议说明

一般平台基于成本、自身技术能力,建议采用 二1,三1,三2,三3,三4,四2方式进行防护。 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在面对反爬虫技术时,Scrapy可以采取一些措施进行反爬虫。其中一种方法是通过降低请求频率来模仿人类用户的行为。在Scrapy的配置文件settings.py中,可以设置DOWNLOAD_DELAY参数来指定请求的时间间隔。通过延迟请求,使得爬虫的行为更接近真实用户的访问频率。例如,设置DOWNLOAD_DELAY = 3,表示两次请求之间的间隔为3秒。此外,还可以使用随机延迟时间来避免请求过于规律,进一步增加爬虫被识别的难度。 另一种反爬虫的措施是修改Scrapy的User-Agent请求头。通过模拟不同的浏览器或设备类型,使得爬虫程序看起来更像是真实的用户在访问网站。这样可以绕过一些简单的反爬虫技术,如基于User-Agent的验证。可以在Scrapy的中间件中设置User-Agent的随机切换,或者使用代理IP来发送请求,增加请求的多样性,提高反爬虫的成功率。 此外,如果网站使用了robots.txt文件来限制爬虫访问,Scrapy可以通过在配置文件settings.py中取消ROBOTSTXT_OBEY的注释来忽略对robots.txt文件的遵守。这样可以强行爬取站点信息,绕过对爬虫的限制。例如,取消如下代码的注释:ROBOTSTXT_OBEY = False。 综上所述,通过降低请求频率、修改User-Agent请求头以及忽略robots.txt文件,Scrapy可以采取一些反爬虫的措施来应对网站的反爬虫技术。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Python Scrapy反爬虫常见解决方案(包含5种方法)](https://blog.csdn.net/qq_30235073/article/details/96073042)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Python scrapy 爬虫入门(七)突破反爬虫技术](https://download.csdn.net/download/weixin_38670707/13749305)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值