1.爬虫被网站识别的特征:
- 爬取几次后需要进行验证
- 响应时间、速度变慢了
- 返回错误的状态码
2.规避反爬虫
- 加入user-agent、cookie、referer等信息
- 减缓爬虫速度,降低请求频率,设置下载等待时间
- 使用Chrome Headless模拟浏览器访问
- 拒绝遵守Robot协议:ROBOTSTXT_OBEY = False
- 减小并发请求数
- 使用分布式爬虫
- 使用代理或代理池
1.爬虫被网站识别的特征:
- 爬取几次后需要进行验证
- 响应时间、速度变慢了
- 返回错误的状态码
2.规避反爬虫
- 加入user-agent、cookie、referer等信息
- 减缓爬虫速度,降低请求频率,设置下载等待时间
- 使用Chrome Headless模拟浏览器访问
- 拒绝遵守Robot协议:ROBOTSTXT_OBEY = False
- 减小并发请求数
- 使用分布式爬虫
- 使用代理或代理池