常见反爬机制及其破解方法

最新推荐文章于 2024-05-13 17:48:00 发布

wangxin083

最新推荐文章于 2024-05-13 17:48:00 发布

阅读量967

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/m0_54255329/article/details/117673635

版权

常见反爬机制及其破解方法

常见反爬机制及其破解方式：
封禁IP，使用cookie等前面文章已经讲过

现在主要将下面的：

~ 验证码
—> 文字验证码 —> OCR（光学文字识别）—> 接口 / easyocr
程序自己解决不了的问题就可以考虑使用三方接口（付费/免费）
—> 行为验证码 —> 超级鹰
~ 手机号+短信验证码
—> 接码平台
~ 动态内容
—> JavaScript逆向 —> 找到提供数据的API接口
—> 手机抓接口 —> 抓包工具（Charles / Fiddler）
—> Selenium直接模拟浏览器操作获取动态内容
~ find_element_by_xxx / find_elements_by_xxx
~ page_source —> 获取包含动态内容的网页源代码
—> JavaScript加密和混淆技术 —> 读懂JavaScript是反反爬的前提
~ 字体反爬 / 内容来自于抠图
—> 例子

bytes —> 不变字节串 —> 二进制 —> BytesIO
str —> 不变字符串 —> 可阅读的字符 —> StringIO

一、调用三方API接口数据（天行数据）

import requests

for page in range(1, 6):
    response = requests.get(
        'http://api.tianapi.com/topnews/index',
        params={
   
            'key': 'd5eace66dccd771e36767ce3563efa09',
            'page': page,
            'num': 20,
            'word': '华为',
            'src': '人民日报'
        }
    )
    result = response.json()
    for news in result['newslist']:
        print(news['title'])
        print(news['url'])

二、OCR（光学文字识别）库

python 自带的easyocr库

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
print(reader.readtext('./files/captcha.jpg', detail=0))

例子：阿里云邮箱自动登陆

import io

import easyocr

from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
browser.set_window_size(1280, 960)
browser.get('http://mail.1000phone.com/')
# 隐式等待（下面的方法在工作时如果取不到就等10秒）
browser.implicitly_wait(10)
# 显式等待
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe')))
iframe1 = browser.find_element_by_css_selector('.login_panel_iframe')
# 记录iframe1的位置（相对位置）
x1, y1 = iframe1.location['x'], iframe1.location['y']
# Chrome对象的switch_to属性的frame方法，可以从页面切换到iframe中
browser.switch_to.frame(iframe1)
iframe2 = browser.find_element_by_css_selector

最低0.47元/天解锁文章

wangxin083

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
常见反爬机制及其破解方法

常见反爬机制及其破解方法常见反爬机制及其破解方式：封禁IP，使用cookie等前面文章已经讲过现在主要将下面的： ~ 验证码 —> 文字验证码 —> OCR（光学文字识别）—> 接口 / easyocr 程序自己解决不了的问题就可以考虑使用三方接口（付费/免费） —> 行为验证码 —> 超级鹰 ~ 手机号+短信验证码 —> 接码平台 ~ 动态内容
复制链接

扫一扫