python使用Tesseract，pytesseract图片处理识别（1）

最新推荐文章于 2024-08-07 07:15:00 发布

朝天椒的夏天

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量5.1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_15158911/article/details/88553627

版权

python 专栏收录该内容

40 篇文章 5 订阅

订阅专栏

1.安装tesseract-ocr，tesseract-ocr为google的ocr识别引擎，如：tesseractocr-setup-3.05.01.exe

双击程序安装即可，可以勾选Additional language data(download)选项来安装OCR识别支持的语言包，但下载语言包很慢，可以直接从https://github.com/tesseract-ocr/tessdata下载语言包文件，然后复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下，最后配置下环境变量，将C:\Program Files (x86)\Tesseract-OCR添加到环境变量path中

验证tesseract安装成功

2.安装pytesseract，pytesseract是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，它是Google的Tesseract-OCR引擎包装器

安装方法：pip install pytesseract

3.安装pillow，PIL：Python Imaging Library，是Python平台事实上的图像处理标准库，功能非常强大，但API却非常简单易用。

由于PIL仅支持到Python 2.7，加上年久失修，于是一群志愿者在PIL的基础上创建了兼容的版本，名字叫Pillow，支持最新的Python 3.x，又加入了许多新特性。

安装方法：pip install pillow

4.找到testData所在的目录，默认情况下是在tesseract安装的目录，在环境变量中设置TESSDATA_PREFIX的环境变量为testdata所在的目录：D:\Program Files (x86)\Tesseract-OCR

5.测试图片处理脚本如下

import pytesseract
from PIL import Image

# pytesseract.tesseract_cmd = 'D://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://111.jpg'))

print(text)

测试图片：