tesseract是一个开源的OCR引擎,最初是由惠普公司开发用来作为其平板扫描仪的OCR引擎,2005年惠普将其开源出来,之后google接手负责维护。目前稳定的版本是3.0。4.0版本加入了基于LSTM的神经网络技术,中文字符识别准确率有所提高。
ubuntu16.04下tesseract 4.0安装:
(1)终端下:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
(2)更新一下
sudo apt-get update
(3)安装
sudo apt-get install tesseract-ocr
(4) 测试
tesseract --version
(5)下载字库
https://github.com/tesseract-ocr/tessdata
下载完成之后把.traineddata字库文件放到tessdata目录下,默认路径是/usr/share/tesseract-ocr /4.00/tessdata
查看已安装的字库:
tesseract --list-langs
(补充:windows安装遇到的坑
1、识别中文字符
下载中文字符集 chi_sim.traineddata 放到
C:\Program Files (x86)\Tesseract-OCR\tessdata
2、将C:\Program Files (x86)\Tesseract-OCR
加入到PATH
3、新建系统变量:(不是在path中)
TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata
)
参考:参考链接