pytesseract是tesseract对python的一个接口,裹着tesseract的内核pytesseract为python程序加持了OCR的功能。pytesseract能识别的图片类型(jpeg、png、gif、bmp、tiff……)比直接用tesseract命令行识别的类型(jpeg、png、tiff和z)更多,而且可以将识别出来的内容直接保存到字符串里,tesseract是保存到文本文件里。
在python程序中用pytesseract做图像识别,首先要安装第三方模块pytesseract,安装完毕后在程序中引进。除此外还要安装和引进pillow模块,用来打开图片文件生成图片对象:
from PIL import Image
import pytesseract
Windows上如果搜索路径(PATH)里没有tesseract 的路径,可以在程序中特别指定tesseract可执行文件的位置:
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'
Mac上若是用brew安装的tesseract,在终端运行命令:
brew list tesseract
可以得到tesseract的安装信息。
这里在Mac上没有在python程序中特别指定pytesseract的安装路径。安装完tesseract后,在终端运行tesseract命令行做了图片文件识别