一、安装库
首先我们需要安装PIL和pytesseract库。
PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。
pytesseract:图像识别库。
我这里使用的是python3.6,PIL不支持python3所以使用如下命令
如果是python2,则在命令行执行如下命令:
这时候我们去运行上面的代码会发现如下错误:
错误提示的很明显:
No such file or directory :"tesseract"
这是因为我们没有安装tesseract-ocr引擎
二、tesseract-ocr引擎
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员