Python Opencv 之使用 teesseract 进行简单的文字识别（包括中文）

仙魁XAN

于 2020-03-27 09:30:32 发布

阅读量7.7k

点赞数 16

分类专栏： python Opencv 文章标签： Python Opencv tesseract 文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014361280/article/details/105110506

版权

python 同时被 2 个专栏收录

68 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

3 篇文章

订阅专栏

本文介绍了如何使用Python的Opencv库和Tesseract OCR工具进行简单的文字识别，包括安装Python的pillow和pytesseract库，下载安装Tesseract-OCR，并特别强调了对于中文识别的配置和方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python Opencv 之使用 teesseract 进行简单的文字识别（包括中文）

目录

Python Opencv 之使用 teesseract 进行简单的文字识别（包括中文）

一、简单介绍

二、pillow、pytesseract 的安装

1、pip install install 安装 pillow

2、pip install pytesseract 安装 pytesseract

三、下载安装需要 pytesseract 需要的 Tesseract-OCR 工具

特别注意：在使用 pytesseract 中，需要配置 Tesseract-OCR，不然使用不了，报错：TesseractNotFoundError

1、到官网下载 Tesseract-OCR 工具，选择自己对应的版本下载即可

2、往下拉找到 Install Tessract via pre-build binary package 进行下载

3、进入 tessdoc 官网，找到对应版本进行下载

4、往下拉，找到自己需要的版本（我这里是windows)

5、Windows 版本的安装包 https://github.com/UB-Mannheim/tesseract/wiki

6、双击下载包进行安装即可

7、操作很简单，根据步骤操作即可

8、安装的时候，特别记住安装位置即可，后面可能用到

9、配置 tesseract.exe 路径到 pytesseract.py 中

四、代码实现

1、根据以上开始编写代码，打开 Pycharm，新建工程，如下图

2、新建脚本，编辑代码，大概的识别过程

3、准备好一张识别图，运行进行识别

五、关键代码

六、附录中文识别的方法：

1、下载识别中文训练包，可以从下面地址下载

2、把识别中文的训练好的包添加到安装的 Tesseract-OCR\tessdata 目录下

3、在 image_to_string(textImage, lang='chi_sim') 添加 lang='chi_sim'

4、识别结果

一、简单介绍

Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言，可以应用于以下领域： Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。
本节介绍，通过使用 opencv 和 tesseract 进行简单的文字识别。

二、pillow、pytesseract

了解本专栏

超级会员免费看

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

仙魁XAN 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。