1 Tesseract-ocr 系列 : Ubuntu16.04安装tesseract-ocr 3.04.02

首先,我的本地环境:

Ubuntu16.04(基于VMWare)上安装tesseract-ocr 4.00alpha(安装时间2017年7月)


一、在Ubuntu下自动安装,一键完成

  	sudo apt-get install tesseract-ocr

二、源代码安装(基于GitHub)

参考网址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling#linux


1. 命令行安装

        sudo apt-get install g++ # or clang++ (presumably)
	sudo apt-get install autoconf automake libtool
	sudo apt-get install autoconf-archive
	sudo apt-get install pkg-config
	sudo apt-get install libpng12-dev
	sudo apt-get install libjpeg8-dev
	sudo apt-get install libtiff5-dev
	sudo apt-get install zlib1g-dev


2. 如果你需要训练,则还需安装相应的库(若不进行训练则此步可以跳过):

	sudo apt-get install libicu-dev
	sudo apt-get install libpango1.0-dev
	sudo apt-get install libcairo2-dev

3. 安装leptonica
	wget http://www.leptonica.org/source/leptonica-1.74.tar.gz  
	tar -zxvf leptonica-1.74.tar.gz 
	cd leptonica-1.74
	./configure  
	sudo make  
	sudo make install

//注意,因为Ubuntu本身bug, 最后两步必须用 sudo 命令


因为本地安装的tesseract-ocr为4.0版本,所以要求的Leptonica必须为1.74或以上版本,这里选用的为 Leptonica1.74

(参考:Leptonica-1.74 下载地址为:http://www.leptonica.com/download.html)


Tesseract、leptonica 和 Ubuntu对应版本号:
Tesseract Leptonica Ubuntu
4.00 1.74.2 Must build from source
3.05 1.74.0 Must build from source
3.04 1.71 Ubuntu 16.04
3.03 1.70 Ubuntu 14.04
3.02 1.69 Ubuntu 12.04
3.01 1.67


4. 从 Git 安装 Tesseract-ocr

a) 安装必须的包:

	sudo apt-get install autoconf-archive automake g++ libtool libleptonica-dev pkg-config

b) 若要进行训练,则还需要安装:

 sudo apt-get install libpango1.0-dev

(以上两步可能和第1.步有重复,请自行筛查)

c)下载tesseract-ocr源代码包:

	git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr

// 注意,默认下载最新版本,目前为4.0. 建议自行下载需要的版本

新装的Ubuntu系统可能会提示需要安装 git, 按照提示安装就好

d)下载完成后,进入tesseract-ocr 目录并编译、安装

    cd tesseract-ocr
    ./autogen.sh
    ./configure
    make
    sudo make install
    sudo make install-langs     //执行此步时报错????
    sudo ldconfig


若要训练,请编译、安装训练工具

   make training
   sudo make training-install

5. 安装语言包

一般这里只安装自己需要的语言包即可。(http://www.qisanfen.com/?p=185)
参考:
英语: eng.traineddata
简体中文:chi_sim.traineddata

	git clone https://github.com/tesseract-ocr/tessdata.git tesseract-ocr.tessdata
以上命令下载的 tesseract-ocr.tessdata 包含所有语言包,总大小为1.4G左右

下载完成后,需要将语言包安装到 TESSDATA_PREFIX 目录。因为是新手,且在安装时没有自己设置安装路径,也就是默认安装,所以语言包的默认目录为: /usr/local/share/tessdata/ .

因为是直接下载的 tesseract-ocr.tessdata 整个包,所以将其中的文件全部拷贝到/usr/local/share/tessdata/ 下即可

	sudo cp /home/username/tesseract-ocr/tesseract-ocr.tessdata/* /usr/local/share/tessdata

至此,完成安装。


6. 测试 
   在OCR文件夹下有要是别的图片文件picture2.png   
   
	cd OCR 
	tesseract picture1.png picture1 -l eng  

    //调用tesseract指令, 识别picture1.png, 自动生成名为picture1.txt 的文件。 -l eng 意为使用英语识别。



附所有参考网址:
http://blog.csdn.net/yimingsilence/article/details/51353772
http://www.qisanfen.com/?p=185
https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation
https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值