OCR-Tesseract系列学习——Tesseract for Linux下载与安装

最新推荐文章于 2024-08-28 11:15:59 发布

高自强的博客

最新推荐文章于 2024-08-28 11:15:59 发布

阅读量8.7k

点赞数 3

文章标签： OCR Tesseract

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33429968/article/details/88830566

版权

OCR 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 Tesseract简单介绍

1.1 起源

Tesseract项目最初由惠普实验室支持，1996年被移植到Windows上，1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在，都由Google公司开发。

1.2 特性

目前，Tesseract可以识别超过100种语言。也可以用来训练其它的语言。

源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。

Tesseract支持多种输出格式，如：普通文本、html、pdf等。

2 下载&依赖

2.1 下载链接

http://tesseract.gg/

2.2 其他依赖

png，jepg，tiff 图像格式解析基础库
leptonica图像处理开发库
tesseract 光学字符识别核心开发库
tessdata 识别用的已训练数据集

3 安装

3.1 安装方法1

Linux自带Tesseract的源程序包。在Linux本地安装步骤如下。

下载图像格式依赖

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev

下载zlib1g依赖

sudo apt-get install zlib1g-dev

下载图像处理开发库依赖

sudo apt-get install libleptonica-dev
sudo apt-get install libleptonica-dev

下载tesseract 光学字符识别核心开发库依赖

sudo apt install libtesseract-dev

安装Tesseract

sudo apt install tesseract-ocr

3.2 安装方法2

4 字库配置

Tesseract自带的字库集位于/usr/share/tesseract-ocr/tessdata目录下。
Github上有开源的、已训练好的字库集。https://github.com/tesseract-ocr/tessdata
然后我们可以在经过训练后将自己需要的字库放到/usr/share/tesseract-ocr/tessdata目录下即可。

5 演示

我们就随机选一张照片命名为ta_test.png。
在这里插入图片描述
在ta_test.png所在目录使用命令：

tesseract 1.png result.txt

识别结果保存在同一目录的result.txt文件中。
在这里插入图片描述

高自强的博客

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。