准备工作:
编译环境:gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
yuminstall gcc gcc-c++ make
1.依赖的包:autoconf automake libtool libjpeg-devellibpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
yuminstall autoconf automake libtool
yuminstall libjpeg-devel libtiff-devel zlib-devel libpng-devel
(要是不安装上面的几种格式的话,运行会出现以下错误:
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.
Error in findTiffCompression: function not present这个是由于leptonica引起的,重装leptonica,版本高点
)
2.安装Leptonica
下载leptonica包:http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压: leptonica-1.68.tar.gz
然后切换到leptonica-1.68根目录
./configure #注意:没做configure之前是没有Makefile文件的,之后才生成的
make
make install #默认安装到了/usr/local/lib下面,是一些静态库和动态库文件;头文件默认位于/usr/local/include/leptonica
3.安装Tesseract-ocr3.02
依赖安装完毕后开始安装tesseract
下载tesseract-ocr-3.02.02.tar.gz包:
从http://code.google.com/p/tesseract-ocr/downloads/list下载Tesseract3.02版本
或者http://tesseract-ocr.googlecode.com/files/tesseract-3.02.02.tar.gz
解压后切换到tesseract-ocr根目录
./autogen.sh #用来生成configure文件
./configure
make
makeinstall #默认安装到/usr/local/include、 /usr/local/lib 和/usr/local/bin/ 下面
ldconfig #这步操作别忘了!
4. tesseract 英文语言包安装:
下载tesseract-ocr-3.02 英文语言包:
http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz
也可以下载中文语言包:tesseract-ocr-3.02.chi_sim.tar.gz,tesseract-ocr-3.02.chi_tra.tar.gz等
把英文语言包解压:tar xvf tesseract-ocr-3.02.eng.tar.gz
然后把其所有的文件拷贝到/usr/local/share/tessdata下面
安装完毕,进行测试:
切换到解压后的 tesseract-3.02根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
命令行:
tesseract phototest.tif result -l eng
输出:
Tesseract Open Source OCR Engine v3.02.02with Leptonica
这时在当前目录下生成一个result.txt文本文件,内容是phototest.tif显示的文字。
5.注意
因为leptonicas和tesseract都是默认安装,所以这里没有配置环境变量。
若是在安装leptonica时,在configure时选择别的安装路径,比如安装在
/home/ administrator/tesseract-ocr目录下边:
./configure --prefix=//home/administrator/tesseract-ocr
那么安装tesseract-ocr时,configure时也要选择与leptonica安装目录相同的路径:
./configure --prefix=/home/administrator/tesseract-ocr
这时需要配置环境变量:
编写一个ocr.sh文件
#!bin/bashexport PATH= /home/administrator/tesseract-ocr/bin:$PATH
export LD_LIBRARY_PATH=/home/administrator/tesseract-ocr/bin:$PATH