最近leader给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下。
我看到目前OCR技术有很多,最主要的是Asprise OCR,Tesseract OCR和Java OCR。
Asprise OCR速度很快,Java实现很简单,但是它是商业的,要收费的,免费版每次都要弹出对话框,是个很麻烦的事情。
Tesseract OCR是C++的,要使用cmd命令的,速度也很快,质量也很好。当然Java也是可以使用的。
Java OCR是纯Java的,效率也不错。
今天先记录下Tesseract吧,后续再补充
1. 首先从官网上下载