目录
使用scrapy做爬虫遇到的一些坑:网站常用的反爬虫策略,如何机智的躲过反爬虫Crawled (403)
1.常用反爬机制介绍
csdn:https://blog.csdn.net/helunqu2017/article/details/112827137
#Headers
最常见的反爬虫策略,通过审查浏览器的headers,把相应headers传给python的requests
#IP限制
用单一的IP地址访问频率过高,服务器会在短时间内禁止这个IP访问。
#UA限制
UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。
#验证码反爬虫或者模拟登陆
验证码识别方法:截图,二值化、中值滤波去噪、分割、紧缩重排(高矮统一)、字库特征匹配识别。
#cookie限制
解决措施:在headers挂上相应的cookie或者根据其方法进行构造,否则使用selenium模块
#Js/Ajax动态加载
Ajax动态加载的工作原理是:从网页的 url 加载网页的源代码之后,会在浏览器里执行JavaScript程序。
处理方法:找到该url,再请求该url,抓取Ajax地址的数据
2.反爬资料
亚马逊是如何反爬虫的
https://www.zhihu.com/question/27768393/answer/114784964
国内外电商平台反爬虫机制报告
https://blog.csdn.net/sinat_30603081/article/details/78496918
Python爬虫、反爬虫和反反爬虫
https://blog.csdn.net/qq_34175893/article/details/80185483
使用scrapy做爬虫遇到的一些坑:网站常用的反爬虫策略,如何机智的躲过反爬虫Crawled (403)
https://blog.csdn.net/weixin_41931602/article/details/80679623?utm_source=blogkpcl10