爬虫中反爬机制

爬虫中反爬机制

首先说明爬虫的步骤

1.请求网页,获取响应结果

2.解析网页,提取数据

3.数据持久化

爬虫 —— 网页反爬——进行反网页反爬(反 反爬)

1.User-Agent:将爬虫伪装成浏览器。(haerders)

2.字体反爬:将页面中重要信息使用符号进行隐藏。(例如:猫眼,瓜子二手车)

3.动态页面:使用selenium模块(自动化测试的模块)。其意再模拟人的行为使用浏览器

4.人机验证:九宫格选图片、选成语(词语)、图片+计算公式、字母数字验证码、滑块验证、短信验证等

九宫格图片 --> 深度学习。https://cuiqingcai.com/

选成语 -->超级鹰

图片+计算公式、字母数字验证码 —>光学文字识别(ocr):easyocr,百度非浆,百度AI开发者平台

滑块验证:selenium、pyautogui —>pyautogui :引入对应的物理原理。 达到更加像人再操作电脑

短信验证:接码平台。

5.封IP: 可以使用代理IP: 激光代理IP、蘑菇代理、站大爷、芝麻代理

6.检测selenium: 滑块验证无法成功。1)加入屏蔽selenium代码。2)修改selenium驱动的底层代码

7.网页中的数据放到图片中: 光学文字识别

8.登录使用:再requests中传入对应的cookie信息,或者再selenium中传入cookie信息。再或者使用selenium操作登录系统

RPA --机器人流程自动化(影刀、八爪鱼、壁虎等) -->从selenium进行的演变。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值