使用Tesseract识别中文并提高精度

最新推荐文章于 2025-10-06 13:01:35 发布

原创最新推荐文章于 2025-10-06 13:01:35 发布 · 1.4w 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#ocr

本文介绍了如何使用pytesseract进行中文文本识别，包括安装中文训练数据，优化图像质量（如调整分辨率、二值化和预处理）以及利用pytesseract的高级参数。通过实例代码展示了从图像加载到识别的完整流程。

1. 使用中文训练数据

在使用pytesseract进行中文文本识别时，确保安装了中文的训练数据文件。在Tesseract的安装目录下的tessdata文件夹中应包含一个名为chi_sim.traineddata（简体中文）或chi_tra.traineddata（繁体中文）的文件。如果没有，你需要从Tesseract的GitHub tessdata仓库下载相应的文件并放到tessdata目录下。

2. 优化图像

OCR的准确性很大程度上取决于图像质量。在对图像进行OCR之前，你可能需要预处理图像以提高识别精度：

调整分辨率：提高图像的分辨率可以使文本更清晰。通常，300 DPI是OCR的理想分辨率。
二值化：将图像转换为黑白两色可以减少干扰并突出文字。
去除噪点：使用图像处理技术去除背景噪点。
校正倾斜：如果文本是倾斜的，进行倾斜校正可以提高识别准确率。

Pillow库提供了一些基本的图像处理功能，例如调整大小、转换为灰度图、二值化等。

3. 使用pytesseract的高级参数

pytesseract提供了一些可以用于优化OCR过程的高级参数。例如，你可以使用--psm（页面分割模式）和--oem（OCR引擎模式）选项来改善识别效果。

示例代码

结合上述建议，下面是一个简化的示例代码，展示了如何使用pytesseract识别中文文本，并包含了一些基本的图像预处理步骤：

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

# 指定Tesseract的路径（根据实际情况修改）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 加载并预处理图像
image = Image.open('path/to/your/image.jpg')
image = image.convert('L')  # 转换为灰度图
enhancer = ImageEnhance.Contrast(image)
image = enhancer.enhance(2)  # 提高对比度
image = image.filter(ImageFilter.MedianFilter())  # 应用中值滤波去噪
image = image.point(lambda x: 0 if x < 140 else 255)  # 二值化

# 使用Tesseract进行中文文本识别
text = pytesseract.image_to_string(image, lang='chi_sim')  # 使用简体中文数据

# 打印识别结果
print(text)