tesseract如何在Linux下卸载,Linux下安装tesseract-ocr

1、安装相应lib

# yum install libpng12-dev

# yum install libjpeg62-dev

# yum install libtiff5-dev

# yum install libtool

# yum install gcc

# yum install g++

# yum install automake

2、下载和安装leptonica

# wget http://www.leptonica.org/source/leptonica-1.71.tar.gz

解压

# tar -zxvf leptonica-1.71.tar.gz

解压后进入leptonica-1.71目录

# cd leptonica-1.71

编译安装

# ./configure

# make

# make install

leptonica即安装编译成功。

3、下载和安装tesseract

解压

# tar -zxvf tesseract-3.04.00.tar.gz

进入目录

# cd cd tesseract-3.04.00

编译安装

# ./autogen.sh

# ./configure

# make

# make install

# ldconfig

tesseract即安装编译成功。

4、安装中英文语言包

下载chi_sim.traineddata、eng.traineddata、eng.traineddata.part三个文件,并把它们放到tessdata文件夹中。

# cp chi_sim.traineddata /usr/local/share/tessdata

# cp eng.traineddata /usr/local/share/tessdata

# cp eng.traineddata.part /usr/local/share/tessdata

到现在基本的安装编译工作已经完成。

5、测试

# cd tesseract-3.04.00

# cd testing

发现一个名为phototest.tif的文件,这个文件其实就是一张图片,这个图片中有几句英文语句,我们的测试就是基于这张图片,也就是识别出这张图片中的英文语句。

于是在testing目录下输入下面指令:

# cd testing

# tesseract phototest.tif result -l eng

再查看testing目录下的文件,发现多了一个result.txt,这个result.txt就是我们对刚刚的phototest.tif文件的识别结果,打看查看。

跟刚刚图片中的内容完全一致,可以说识别率是很高的。到此我们的tesseract-ocr技术就已经可以使用了,由于我们导入了中文语言包chi_sim.traineddata,因此它还可以用来提取图片中的汉字,就这么简单就可以使用OCR技术来为你的程序服务了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值