本文档是关于linux下的tesseract-ocr安装,本教程执行环境为ubuntu 10.4
下载地址:https://code.google.com/p/tesseract-ocr/downloads/list
1.下载tesseract-ocr-3.02.02.tar.gz,并解压到目录
2.安装依赖的包
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install g++
sudo apt-get install libleptonica-dev
3.编译,进入到解压文件目录,执行以下命令
./autogen.sh
./configure
make
sudo make install
sudo ldconfig
4.安装语言包,下载对应的语言包,解压到目录
配置环境变量export TESSDATA_PREFIX=/some/path/to/tessdata
注意指到tessdata所在的文件夹就行了
FAQ
1.安装./configure 出现leptonica library missing.是因为缺少leptonica解决方法安装这个软件http://www.leptonica.org/