ubuntu下tesseract 4.0安装及参数使用

-牧野-

于 2017-09-28 20:53:27 发布

阅读量1.3w

点赞数 7

分类专栏： ubuntu 深度学习文章标签： tesseract4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dcrmg/article/details/78128026

版权

深度学习同时被 2 个专栏收录

79 篇文章

订阅专栏

22 篇文章

订阅专栏

tesseract是一个开源的OCR引擎，最初是由惠普公司开发用来作为其平板扫描仪的 OCR引擎，2005年惠普将其开源出来，之后google接手负责维护。目前稳定的版本是3.0。4.0版本加入了基于LSTM 的神经网络技术，中文字符识别准确率有所提高。

ubuntu下tesseract 4.0安装：

终端输入以下命令：

sudo add-apt-repository ppa:alex-p/tesseract-ocr

sudo apt-get update

sudo apt-get install tesseract-ocr

测试安装是否成功，同时检查版本：

tesseract --version

字库下载

tesseract支持60多种语言的识别不同，使用之前需要先下载对应语言的字库，下载地址：https://github.com/tesseract-ocr/tessdata

下载完成之后把.traineddata字库文件放到tessdata目录下，默认路径是/usr/share/tesseract-ocr /4.0/tessdata

中文OCR识别测试

在终端中使用tesseract格式：

tesseract xx.jpg result --psm 7

执行之后生成结果记录在result里，--psm 7 指令表示内容是一行文本
更多tesseract使用指令可以查看help

tesseract --help

查看已安装字库

tesseract --list-langs

--psm命令
psm命令指明文本的模式，默认为3:

--oem命令

定义OCR引擎的模式:

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。