在许多自动化场景中,我们需要解析验证码,例如爬虫自动登录或数据采集。本篇文章介绍如何使用 Python + Tesseract OCR 进行验证码识别,并优化识别效果。
1. 环境准备
1.1 安装 Tesseract OCR
Windows 用户
前往 Tesseract OCR GitHub 下载安装包。
安装后,将 tesseract.exe 路径添加到系统环境变量(如 C:\Program Files\Tesseract-OCR\tesseract.exe)。
Linux/macOS 用户
# Ubuntu
sudo apt update && sudo apt install tesseract-ocr
# macOS(Homebrew)
brew install tesseract
安装完成后,检查是否成功:
bash
tesseract --version
1.2 安装 Python 依赖
在 Python 中,我们使用 pytesseract 作为 Tesseract OCR 的接口,并使用 Pillow 处理图像。
bash
pip install pytesseract pillow opencv-python numpy
2. 代码实现:识别验证码
2.1 Python 代码示例
python
import pytesseract
from PIL import Image, ImageFilter, ImageOps
import cv2
import numpy as np
# 配置 Tesseract OCR 路径(Windows 需要手动指定)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
def preprocess_image(image_path):

最低0.47元/天 解锁文章
580

被折叠的 条评论
为什么被折叠?



