最近项目需要使用到OCR引擎,通过百度了解到Tesseract在这方面做的挺好的。于是便开始学习tesseract。
tesseract的github地址:https://github.com/tesseract-ocr/tesseract
现在已经更新到了4.0版本,使用了最新的LSTM网络来进行OCR的识别,较之之前的版本有技术上的提升。
编译之前首先需要下载一些工具:CMAKE和CPPAN。
CMake是一个跨平台的安装(编译)工具,可以用简单的语句来描述所有平台的安装(编译过程)。他能够输出各种各样的makefile或者project文件,能测试编译器所支持的C++特性,类似UNIX下的automake。