tesserocr是Python的一个OCR库, 其中OCR指的是光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程. tesserocr是tesseract做的一层Python API封装,也就是通过tesserocr访问tesseract,通过在tesseract中处理图像时释放GIL来实现真正的并发执行.
Ubuntu安装tesserocr
在安装tesserocr之前,我们需要先安装tesseract
$apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config
安装完成之后,可以调用tesseract指令进行版本查看:
$ tesseract --version
接下来通过pip指令安装OCR库: tesserocr,其中pillow是图形处理
$ pip3 install tesserocr pillow
Ubuntu安装tesserocr报错
pip3安装tesserocr时报错提醒:
Command "/usr/bin/python3 -u -c "import setuptools, tokenize;__file__='/tmp/pip-build-m1aw4x3p/tesserocr/setup.py';f=getattr(tokenize,