图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

最新推荐文章于 2024-07-30 10:55:15 发布

张维鹏

最新推荐文章于 2024-07-30 10:55:15 发布

阅读量4k

点赞数 8

分类专栏：机器学习文章标签： tesseract-ocr 图片文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a745233700/article/details/80108652

版权

机器学习专栏收录该内容

6 篇文章 7 订阅

订阅专栏

简介：

tesseract-ocr可以对图像文字进行识别，为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库，使图像转换文本的能力不断增强，也可以调试模型使图像文字进行程序的识别率更高，

一.tesseract4.0的安装与配置环境变量：

1、安装包地址： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后，直接执行.exe文件进行安装，安装步骤：

（1）选择语言包：

除了默认已经打钩的，再钩上数字公式常用包和简体中文包。

（2）选择安装路径：（需要记住自己的安装路径，后面配置需要用到）

我的安装路径是：D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR

（3）目录结构：

（4）配置环境变量：

第一步：在环境变量界面的系统变量中找到Path，点击编辑，新建一个D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR（你的安装目录），然后确定。

第二步：在系统变量下面新建一个变量，然后确定。

变量名：TESSDATA_PREFIX

变量值：D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

（5）检验环境变量是否配置成功：打开cmd命令行，在任意路径，输入“tesseract”，出现下面信息则表示配置成功。

二、初步使用tesseract4.0进行简单的图片文字识别：

1、先准备一张图片素材（图片命名是wenzi.png），内容如下图：

2、打开cmd命令行，进入素材图片所在的目录，输入以下命令，就会生成一个test.txt文档，该文档的内容为图片识别后的文字：

tesseract wenzi.png test -l chi_sim+equ+eng

其中，wenzi.png是素材的名字，test是识别后生成的文档的名字，-l是指定使用包(注意：是小写英文字母l，不是阿拉伯数字1)，chi_sim是中文识别包，equ是数字公式包，eng是英文包。

识别后的test.txt的文字内容：

3、至此，使用tesseract4.0进行简单的文字识别就完成，虽然识别的成功不高，但是我们可以通过训练字库的方法提高tesseract的识别率，训练tesseract字库的方法在下篇博客再写。

关注

8
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张维鹏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。