1.相关链接
- Tesserocr GitHub:https://github.com/sirfz/tesserocr
- Tesserocr PyPi:https://pypi.python.org/pypi/tesserocr
- Tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
- Tesseract GitHub:https://github.com/tesseract-ocr/tesseract
- Tesseract 语言包:https://github.com/tesseract-ocr/tessdata
- Tesseract 文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
2.tesseract下载安装
我选择下载安装的是tesseract-ocr-setup-3.05.02-20180621。默认安装在C盘,建议不要更改默认安装路径,我的环境配置时win10+anaconda3,anaconda安装在D盘,开始安装在d盘某个文件夹里,后期验证的时候一直提示:
Failed to init API, possibly an invalid tessdata path
我重新安装了tesseract,一路next安装,配置完路径,也不用将tessdata文件夹拷贝到anaconda安装目录下也可完美运行。
3.安装Tesserocr
直接使用 conda install -c tesserocr pillow 命令无法安装,
替换使用以下命令:
conda install -c simonflueckiger tesserocr pillow
4.相关截图
需要注意:
- 需要将Tesseract-OCR目录配置到环境变量中
- 需要将Tesseract-OCR目录下的tessdata目录配置到环境变量中
验证 :
import tesserocr
print(tesserocr.file_to_text("c:\char.jpg"))