爬虫与反爬虫

最新推荐文章于 2024-09-26 16:35:32 发布

拾阿拾阿

最新推荐文章于 2024-09-26 16:35:32 发布

阅读量1k

点赞数

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shasha_bucou_sha/article/details/125729520

版权

爬虫

爬虫的步骤：

1.请求网页，获取响应结果。
2.解析网页，提取数据
3.数据持久化

爬虫—>反爬虫—>反反爬虫

1.User-Agent:将爬虫伪装成浏览器。例如：豆瓣电影Top250、职友集。
2.字体反爬：将页面中重要信息使用符号进行隐藏。例如：猫眼电影、瓜子二手车、大众点评、企查查、美团等。
3.动态页面：使用selenium模块（自动化测试的模块），能够模拟人的行为，使用浏览器。
4.人机验证：九宫格选图片、选成语（词语）、图片+计算公式、字母数字验证码、滑块验证码、短信验证等
1）九宫格选图片 --> 深度学习。https://cuiqingcai.com/36060.html
2）选成语（词语） -->超级鹰
3）图片+计算公式、字母数字验证码 --> 光学文字识别（OCR）：easyocr、百度飞桨、百度AI开发者平台等
4）滑块验证：selenium、pyautogui --> 引用对应的物理原理。
5）短信验证：等待、接码平台。
5.封IP:代理IP：极光代理IP、蘑菇代理、站大爷、芝麻代理等。
6.检测selenium：滑块验证无法拖成功。
1）加入屏蔽selenium的代码。
2）修改selenium驱动的底层代码。例如：淘宝。
7.网页中的数据放到图片中：光学文字识别。
8.登录使用：例如：淘宝。可以在requests中传入对应的cookie信息，或者在selenium中传入cookie或者使用selenium操作登录的输入框、按钮。

RPA – 机器人流程自动化

（影刀、八爪鱼、Uiot、壁虎等） --> 从selenium进行的演变。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。