![7429b35d8146ae6d0b1d76815580b1e1.png](https://i-blog.csdnimg.cn/blog_migrate/79fd9862a8b1b96592a7aafdb4a3ffb6.png)
一、OCR工具对比
![6f405b8fbc17db1fc6269867076ee37d.png](https://i-blog.csdnimg.cn/blog_migrate/9018f6207538e4d3e804053d45c986dc.jpeg)
经过预处理后,tesseract识别率达到100%,tesseract-fast错误均为人名,tesseract-best/tesseract-fast仅用LSTM。CLSTM已经年久失修,docker镜像都404了。tesseract对清晰度不高的图片识别出现很多拒识,百度OCR-API准确率还在95%以上
结论:tesseract较多人使用,有比较多资料可查,目前由google提供支持,暂定它了,优化方向:通过训练微调、想办法提速。
二、tesseract-ocr使用流程
安装
支持windows、linux,注意要安装4.0版,准确率有较大提升,安装后需要添加中文词库。
安装教程地址:https://github.com/tesseract-ocr/tesseract/wiki
中文词库地址:chi_sim.traineddata
运行
假设当前目录下有