爬虫小知识

钰子t

已于 2022-07-12 16:43:38 修改

阅读量206

点赞数

分类专栏：爬虫文章标签：爬虫 python 开发语言

于 2022-07-12 15:19:37 首次发布

本文链接：https://blog.csdn.net/m0_69100942/article/details/125729729

版权

6 篇文章 0 订阅

订阅专栏

User-Agent：将爬虫伪装成浏览器。例如：豆瓣电影Top250、职友集。
字体反爬：将页面总重要信息使用符号进行隐藏。例如：猫眼电影、瓜子二手车、企查查、美团。
动态页面：使用selenium模块（自动化测试的模块），能够模拟人的行为，使用浏览器。
人机验证:九宫格选图片、选成语、选词语、图片+计算公式、字母数字验证码、滑块验证码、短信验证等。
（1）九宫格选图片：深度学习——https://cuiqingcai.com/36060.html
（2）选成语、选词语——超级鹰。
（3）图片+计算公式、字母数字验证码：光学文字识别（OCR）——easyocr、百度飞桨、百度AI开发者平台等。
（4）滑块验证码：selenium、pyautogui——引入对应的物理原理。
（5）短信验证：等待、接码平台。
封IP——代理IP、极光代理IP、蘑菇代理、站芝麻代理等。
检测selenium的网站（滑块验证无法拖成功）——1.加入屏蔽selenium的代码。2.修改selenium驱动的底层代码。例如：淘宝
网页中的数据放到图片中：光学文字识别。
登录使用。例如：淘宝。
（1）可以在requests中传入对应的cookie信息。
（2）在selenium中传入cookie。
（3）使用selenium操作登录的输入框、按钮。
RPA——机器人流程自动化（影刀、八爪鱼、壁虎、Uiot等），从selenium进行的演变。