在vs2013上的编译tesseract-ocr
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.04.
1 准备工作
1.1 首先是安装vs2013 ultimate
需要注意的是用光盘镜像安装, 首先是用UltraISO将VS2013_RTM_ULT_CHS.iso mount到某个驱动器盘符,例如E:\下. (我采用rar直接解压ISO,发现安装失败,而采用mount ISO安装成功), 然后运行vs_ultimate.exe 安装即可.
1.2 下载tesseract-vs-master.zip和tesseract-vs2013-master.zip
到网站上直接下载zip:
https://github.com/charlesw/tesseract-vs
https://github.com/tesseract4java/tesseract-vs2013
也可以采用git clone方式:
$ git clone https://github.com/charlesw/tesseract-vs.git
$