1、系统环境
- OS X 10.7
- MacBook Pro(13英寸,2012年初期)
- Python 2.7
a、需要安装PIL以及pytesseract库
Python-tesseract是一个基于google's Tesseract-OCR的独立封装包;
Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果;
Python-tesseract默认支持tiff、bmp格式图片,只有在安装PIL之后,才能支持jpeg、gif、png等其他图片格式;
Python-tesseract支持python2.5及更高版本;
PIL[Python Imaging Library]来支持更多的图片格式;
b、需要安装google tesseract-ocr
执行命令行 tesseract.exe 1.png output -l eng ,可以识别1.png中文字,并把识别结果输出到output.txt中;
Pytesseract对上述过程进行了二次封装,自动调用tesseract.exe,并读取output.txt文件的内容,作为函数的返回值进行返回。
3、程序
import pytesseract
from PIL import Image
image = Image.open('./0.png')
code = pytesseract.image_to_string(image)
print (code)