1.安装tesseract-ocr,tesseract-ocr为google的ocr识别引擎,如:tesseractocr-setup-3.05.01.exe
双击程序安装即可,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包很慢,可以直接从https://github.com/tesseract-ocr/tessdata下载语言包文件,然后复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后配置下环境变量,将C:\Program Files (x86)\Tesseract-OCR添加到环境变量path中
验证tesseract安装成功
2.安装pytesseract,pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,它是Google的Tesseract-OCR引擎包装器
安装方法:pip install pytesseract
3.安装pillow,PIL:Python Imaging Library,是Python平台事实上的图像处理标准库,功能非常强大,但API却非常简单易用。
由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新的Python 3.x,又加入了许多新特性。
安装方法:pip install pillow
4.找到testData所在的目录,默认情况下是在tesseract安装的目录,在环境变量中设置TESSDATA_PREFIX的环境变量为testdata所在的目录:D:\Program Files (x86)\Tesseract-OCR
5.测试图片处理脚本如下
import pytesseract
from PIL import Image
# pytesseract.tesseract_cmd = 'D://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://111.jpg'))
print(text)
测试图片:
运行结果:
总结:pytesseract对黑白图片的识别处理测试还可以,但是对彩色图片识别率不是很高,如果需要处理彩色图片,需要先对图片进行灰度处理,去噪等操作,后期再补充。