tesseract-ocr ubuntu 安装使用

最新推荐文章于 2024-08-26 16:41:57 发布

帝都-小帅

最新推荐文章于 2024-08-26 16:41:57 发布

阅读量1.3k

点赞数

分类专栏：其它文章标签： ubuntu tesseract-ocr imagemagick

其它专栏收录该内容

10 篇文章 2 订阅

订阅专栏

tesseract-ocr是开源的光学字符识别引擎，有Google的支持，支持很多种语言的识别，下面说一下我的安装步骤

其实官方文档上说的很细，下面列出其中的命令，

[plain] view plain copy

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

注意最后一个zlib1g-dev中的1g是数字1，而不是小写字母l,

[plain] view plain copy

sudo apt-get install libleptonica-dev

下载源文件包解压（目前是3.0），进入目录

[plain] view plain copy

./runautoconf
./configure
make
sudo make install

下载语言数据包解压：你可以在这找到更多的语言包

[plain] view plain copy

gzip -d eng.traineddata.gz

移动到数据包安装目录下，默认为 /usr/local/share/tessdata

[plain] view plain copy

mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/

安装图片格式转换工具，因为tesseract只识别tif格式的图片。

[plain] view plain copy

apt-get install imagemagick

你可以使用下面的命令转换图片

[plain] view plain copy

convert a.jpg a.tif

好了，测试一下吧

[plain] view plain copy

tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a

默认为英语，如果你要识别其它语言请使用-l 参数指定，如

[plain] view plain copy

tesseract a.tif a -l chi_sim
cat a.txt

你将会看到识别出的文字，太棒了。好了，下面就可以用程序去调用识别文字了，

对于java你也可以使用tess4j封装的API，对于PHP你可以使用exec调用再对文件进行处理，

如果你遇到 lib **.so 找不到请运行

[plain] view plain copy

sudo ldconfig

结合项目可使用开源项目：

https://github.com/thiagoalessio/tesseract-ocr-for-php

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。