scrapy反爬机制与 Selenium搭配

最新推荐文章于 2024-09-20 17:10:00 发布

pardon110

最新推荐文章于 2024-09-20 17:10:00 发布

阅读量460

点赞数

分类专栏： python tool python 文章标签： scrapy 常用反爬虫方案

本文链接：https://blog.csdn.net/u011584949/article/details/90441905

版权

40 篇文章 1 订阅

订阅专栏

27 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

需求背景
- 网站内容使用js动态加载，一般的爬虫无法抓取
分析目标站点
- 使用 shell 调试工具
- 动态加载比如请求api得到新数据
  1. 向动态请求图片api发起请求
  2. json.loads(response.text) 函数来加载处理响应的api数据对象
小计
- Spider 到底应该使用 XPath 或 CSS 选择器来提取响应数据，还是使用 JSON，完全取决于目标网站的响应内容
- scrapy crawl unsplash_image 爬虫启动
- 可以shell界面，response.headers 查看响应体，作对应处理
常规反爬虫
- 通过 User-Agent 请求头验证是否为浏览器
- 使用 JavaScript 动态加载资源，需要抓取请求api

ip地址验证
- 思路不断地随机更换代理服务器的 IP 地址
- 方案
  1. middlewares.py 通过自定义的下载中间件为 Scrapy 设置了代理服务器
    - 需要开发者事先准备好一系列代理服务器
  2. settings.py 文件设置启用自定义的下载中间件
禁用Cookie
- 场景有些网站通过跟踪 Cookie 来识别是否是同一个客户端
- 方案
  - 在配置文件中关闭默认开启的cookie选项 COOKIES_ENABLED = False
违反爬虫规则文件
- 有些网站robots.txt 文件，制定了爬虫规则
- 方案指定不遵守爬虫规则 ROBOTSTXT OBEY = False
限制访问频率
- 场景
  - 当同一个 IP 地址、同一个客户端访问目标网站过于频繁时，很可能会被当成机器
  - 为了更好地模拟正常用户的访问速度，可以限制 Scrapy 的访问频率
    - 比如开启频率限制，设置访问开始延迟，访问之间最大延迟，并行每台服务器请求数量，下载后的自动延迟
图形验证码
- 场景为了防止机器程序访问，对同客户同ip达到一定访问次数，会要求输入图形验证码
- 解决思路让机器识别验证码
  1. 使用 PIL、Libsvrn 等库自己开发程序来识别图形验证码
  2. 通过第三方识别。有不少图形验证码的在线识别网站，但识别率高往往需要收费