爬虫与反爬虫之间的斗争
爬虫 :对某个网站数据或图片感兴趣,开始抓取网站信息;
网站 :请求次数频繁,并且访问ip固定,user_agent也是python,开始限制访问;
爬虫 :通过设置user_agent,并添加代理ip请求;
网站 :压力过大,不符合常规现象,开始设置登陆访问;
爬虫 :注册账号,携带cookie获取数据;
网站 :发现网站单账号访问异常,限制账号权限;
爬虫 :构建cookie池,多个账号联合爬取数据;
网站 :压力还是很大,加大对访问频繁ip的封锁频率
爬虫 :开始模仿手动请求,限制爬取速度
网站 :设置验证码策略
爬虫 :打码平台介入,或者机器学习识别验证码
网站 :发现对HTML数据请求频繁,不请求js和css,开发人员将重要数据通过Ajax方式加载
爬虫