1.首先需要下载gcc环境
yum install gcc gcc-c++
2.下载Tesseract和leptonica安装包
Tesseract
使用的图像处理主要由Leptonica
提供,Tesseract4
必须要求Leptonica
在1.74
以上。我这块使用tesseract-ocr-4.1.1 Release 和 leptonica-1.79
下载完成后上传到服务。
3.解压安装包
$ tar -zxvf leptonica-1.79.0.tar.gz
$ tar -zxvf tesseract-4.1.1.tar.gz
4.进入leotonica目录下编辑leptonica
./configure && make && make install
5.进入tesseract目录下编辑tesseract
编译tesseract
前要先生成configure
./autogen.sh
如果运行提示未找到命令需要下载下载下libtool插件
yum install automake -y
yum install libtool -y
然后开始编译tesseract执行
./configure && make && make install
如果提示 leotonica1.74 or higher需要在/etc/profile下配置leptonica环境变量
vim /etc/profile
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
增加以上配置后运行
source /etc/profile
再次执行就好使了
./configure && make && make install
下载完成后上传到Linux /usr/local/share/tessdata/
目录
// 语言库下载地址
https://github.com/tesseract-ocr/tessdata
运行tesseract --version测试下
java使用需要liblept.so.5.0.4
和libtesseract.so.4.0.1文件还需要将这两个文件放在/usr/lib64
// 进入lib文件查看编译好的库
cd /usr/local/lib
这样linux上需要的配置就完成了
语言包下载地址我这块使用的是eng.traineddata 下载完成后放到tessdata目录下就可以了