首先,我的本地环境:
Ubuntu16.04(基于VMWare)上安装tesseract-ocr 4.00alpha(安装时间2017年7月)
一、在Ubuntu下自动安装,一键完成
sudo apt-get install tesseract-ocr
二、源代码安装(基于GitHub)
参考网址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling#linux
1. 命令行安装
sudo apt-get install g++ # or clang++ (presumably) sudo apt-get install autoconf automake libtool sudo apt-get install autoconf-archive sudo apt-get install pkg-config sudo apt-get install libpng12-dev sudo apt-get install libjpeg8-dev sudo apt-get install libtiff5-dev sudo apt-get install zlib1g-dev
2. 如果你需要训练,则还需安装相应的库(若不进行训练则此步可以跳过):
sudo apt-get install libicu-dev sudo apt-get install libpango1.0-dev sudo apt-get install libcairo2-dev
3. 安装leptonica
wget http://www.leptonica.org/source/leptonica-1.74.tar.gz tar -zxvf leptonica-1.74.tar.gz cd leptonica-1.74 ./configure sudo make sudo make install
//注意,因为Ubuntu本身bug, 最后两步必须用 sudo 命令
因为本地安装的tesseract-ocr为4.0版本,所以要求的Leptonica必须为1.74或以上版本,这里选用的为 Leptonica1.74
(参考:Leptonica-1.74 下载地址为:http://www.leptonica.com/download.html)
Tesseract、leptonica 和 Ubuntu对应版本号:
Tesseract Leptonica Ubuntu
4.00 1.74.2 Must build from source
3.05 1.74.0 Must build from source
3.04 1.71 Ubuntu 16.04
3.03 1.70 Ubuntu 14.04
3.02 1.69 Ubuntu 12.04
3.01 1.67
4. 从 Git 安装 Tesseract-ocr
a) 安装必须的包:
sudo apt-get install autoconf-archive automake g++ libtool libleptonica-dev pkg-config
b) 若要进行训练,则还需要安装:
sudo apt-get install libpango1.0-dev
(以上两步可能和第1.步有重复,请自行筛查)
c)下载tesseract-ocr源代码包:
git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr
// 注意,默认下载最新版本,目前为4.0. 建议自行下载需要的版本
新装的Ubuntu系统可能会提示需要安装 git, 按照提示安装就好
d)下载完成后,进入tesseract-ocr 目录并编译、安装
cd tesseract-ocr ./autogen.sh ./configure make sudo make install sudo make install-langs //执行此步时报错???? sudo ldconfig
若要训练,请编译、安装训练工具
make training sudo make training-install
5. 安装语言包
一般这里只安装自己需要的语言包即可。(http://www.qisanfen.com/?p=185)
参考:
英语: eng.traineddata
简体中文:chi_sim.traineddata
以上命令下载的 tesseract-ocr.tessdata 包含所有语言包,总大小为1.4G左右git clone https://github.com/tesseract-ocr/tessdata.git tesseract-ocr.tessdata
下载完成后,需要将语言包安装到 TESSDATA_PREFIX 目录。因为是新手,且在安装时没有自己设置安装路径,也就是默认安装,所以语言包的默认目录为: /usr/local/share/tessdata/ .
因为是直接下载的 tesseract-ocr.tessdata 整个包,所以将其中的文件全部拷贝到/usr/local/share/tessdata/ 下即可
sudo cp /home/username/tesseract-ocr/tesseract-ocr.tessdata/* /usr/local/share/tessdata
至此,完成安装。
6. 测试
在OCR文件夹下有要是别的图片文件picture2.png
cd OCR tesseract picture1.png picture1 -l eng
//调用tesseract指令, 识别picture1.png, 自动生成名为picture1.txt 的文件。 -l eng 意为使用英语识别。
附所有参考网址:
http://blog.csdn.net/yimingsilence/article/details/51353772
http://www.qisanfen.com/?p=185
https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation
https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract