ocr字符识别安装 tesseract

最新推荐文章于 2024-04-08 15:06:09 发布

Omghhhhhh

最新推荐文章于 2024-04-08 15:06:09 发布

阅读量991

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/coco_link/article/details/88954793

版权

python 专栏收录该内容

40 篇文章 2 订阅

订阅专栏

1.配置源，对于CentOS 7，以root身份运行以下命令：

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract

2.安装支持的语言包

yum search tesseract   查看支持的语言包
yum install tesseract-langpack-eng     安装英语

示例： tesseract-eng（英语），tesseract-ara（阿拉伯语），tesseract–chi-sim（简体中文），tesseract-script-latn（拉丁文脚本），tesseract-script- deva（梵文脚本）等

3.python安装 pytesseract 模块

pip install pytesseract

4. 运行tesseract

Tesseract是一个命令行程序，因此首先打开一个终端或命令提示符。该命令使用如下：

 tesseract imagename outputbase [-l lang] [-psm pagesegmode][configfile...]

在名为’test.png’的图像上使用简体中文执行OCR并将结果保存到’out.txt’的基本用法是：

tesseract test.png out -l chi_sim

它甚至可以用于一次训练数据的多种语言，例如。英语和德语：

tesseract test.png out -l eng+deu

提示错误：

Error opening data file /usr/share/tesseract/4/tessdata/chi-sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi-sim'
Tesseract couldn't load any languages!

解决：
1.首先确认自己的tessdata文件夹里确实含有所用的语言’chi-sim’,
2.再看看该语言拼写是否有误，（我文件夹里的是chi_sim,命令行打成了‘chi-sim’ ==）
3.将TESSDATA_PREFIX环境变量设置为指向 tessdata 语言数据文件夹.
4.github上有全套的语言数据文件，链接如下：tessdata_fast ，可下载至自己的 tessdata 文件夹，
以上基本就能解决问题了。
生成test.txt文件就成功了，提示如下内容可忽略，

Tesseract Open Source OCR Engine v4.1.0-rc1-125-gac7e with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 182
Detected 76 diacritics

参考：
1.https://github.com/tesseract-ocr/tesseract/wiki
2. https://pypi.org/project/pytesseract/