python实现ORC/文字识别之pytesseract

比较方便使用的文字识别有两种,在这里县介绍第一种通过安装pytesseract就可以使用的方法。
首先是搭建好python环境和安装pycharm编码运行工具,这里不做赘述。

下载和安装pytesseract库

网址: https://digi.bib.uni-mannheim.de/tesseract/
可以下载较新的版本,下载安装到自己的目录就行,我安装的目录是D://Tesseract,安装比较新的版本还带有语言选择功能,安装过程中可以选择语言包(或者在下一步下载语言包配置)。
安装完后就需要在电脑上配置环境:我的电脑(右键)>>高级系统配置>>环境变量>>系统环境变量>>PATH(把pytesseract安装目录加上)。
在这里插入图片描述

下载安装语言包

pytesseract包含的没有中文,如果安装的时候没有安装中文,可以在这一步下载中文包安包然后配置。
网址: https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有两个,一个是简体chi_sim.traineddata,一个是繁体chi_tra.traineddata,一般是下载简体的,如果你需要的话都下载。
下载完后,放到安装目录的tessdata文件下即可。
在这里插入图片描述

还需要两个模块

pip install pytesseract
pip install pillow

最后一步

出现这个错误:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
在这里插入图片描述
那便是没有修改路径的问题。有了pycharm编辑器,可以直接点击pytesseract.py文件,找到源码中的tesseract = 'tesseract‘
将其改为自己的安装目录下的tesseract.exe,我的如下:
在这里插入图片描述
到这里,环境配置就完成了。
下面可以跑一下代码。

import pytesseract
from PIL import Image


# 读取图片
im = Image.open('1.png')
# 识别文字,并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print
print(string)

大功告成!!!

这里是引用,感谢大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940

  • 0
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值