python实现ORC/文字识别之pytesseract

最新推荐文章于 2024-08-07 07:15:00 发布

弎步

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量4.8k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_38222051/article/details/109340460

版权

比较方便使用的文字识别有两种，在这里县介绍第一种通过安装pytesseract就可以使用的方法。
首先是搭建好python环境和安装pycharm编码运行工具，这里不做赘述。

下载和安装pytesseract库

网址： https://digi.bib.uni-mannheim.de/tesseract/
可以下载较新的版本，下载安装到自己的目录就行，我安装的目录是D://Tesseract，安装比较新的版本还带有语言选择功能，安装过程中可以选择语言包（或者在下一步下载语言包配置）。
安装完后就需要在电脑上配置环境：我的电脑（右键）>>高级系统配置>>环境变量>>系统环境变量>>PATH(把pytesseract安装目录加上)。
在这里插入图片描述

下载安装语言包

pytesseract包含的没有中文，如果安装的时候没有安装中文，可以在这一步下载中文包安包然后配置。
网址： https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有两个，一个是简体chi_sim.traineddata，一个是繁体chi_tra.traineddata，一般是下载简体的，如果你需要的话都下载。
下载完后，放到安装目录的tessdata文件下即可。
在这里插入图片描述

还需要两个模块

pip install pytesseract
pip install pillow

最后一步

出现这个错误：
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
在这里插入图片描述
那便是没有修改路径的问题。有了pycharm编辑器，可以直接点击pytesseract.py文件，找到源码中的tesseract = 'tesseract‘
将其改为自己的安装目录下的tesseract.exe，我的如下：

到这里，环境配置就完成了。
下面可以跑一下代码。

import pytesseract
from PIL import Image


# 读取图片
im = Image.open('1.png')
# 识别文字，并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print
print(string)