本次安装的软件版本及下载地址
1、tesseract-ocr 3.04
地址:wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
2、leptonica-1.72
地址:http://www.leptonica.com/source/leptonica-1.72.tar.gz
安装步骤
1、首先安装leptonica依赖包
执行命令:
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2、编译安装leptonica
执行命令步骤:
1)下载
wget http://www.leptonica.com/source/leptonica-1.72.tar.gz
2)解压
tar -xzvf leptonica-1.72.tar.gz
3)编译
cd leptonica-1.72 /*进入解压后的文件*/
./configure
4)安装
make && make install
3、编译安装Tesseract-ocr3.04.00.tar.gz
1)下载
wget wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
2)解压
tar -xvzf 3.04.00.tar.gz
3)编译
cd tesseract-3.04.00
./configure
4)安装
make && make install
5)上传语言识别库,我用的是英文和中文识别库
下载地址:https://codeload.github.com/tesseract-ocr/langdata/zip/master
将将语言库中eng下的所有文件上传到/user/local/share/tessdata下面
下载识别库:https://raw.githubusercontent.com/tesseract-ocr/tessdata/master该路径下面有所有的识别库
下载:eng.traineddata chi_sim.traineddata
将这两个库也上传到/user/local/share/tessdata下面。
4测试
这是我要识别的图片
执行命令:tesseract 2.jpg out -l chi_sim
找到out.txt文件打开我的内容是
已影响63人加入全民阅读行列超过了99%的用户