python 图片文字识别orc

最新推荐文章于 2024-05-31 11:01:21 发布

sunnychou0330

最新推荐文章于 2024-05-31 11:01:21 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/m0_37693335/article/details/98540329

版权

先下载tesseract.exe,安装，并配置其两个环境变量，

安装包下载地址： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，在安装exe的过程中，会有选择语言包，简单的话，可以直接全选，如果不想下那么多的话，可以找几个常用的，比如简体中文、繁体中文、英文、法语等等，在安装界面最后会有有显示哦！

语言包可以自己下载：github地址

https://github.com/tesseract-ocr/tessdata

下载完放置的地址是：

环境变量：

1）path，放置的是tesseract.exe的文件夹位置,

2）语言包的地址，名称：TESSDATA_PREFIX，把语言包的地址放进去，超级重要！不然后面会一直报错

重启电脑，很重要！我的重启后才生效，有的可能立即就生效！

第二步:pip install pytesseract
第三步代码

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(Image.open('22.png'))

print(text)

原图片，运行如下：正确识别出来了字符，但是大小写可能存在一定的差异

第二种，把tesseract-orc的地址放入pytesseract.py中，整个.py文件大概共400行代码，代码简洁，如果有兴趣可以阅读源码，我们把我们下载的tesseract.exe文件放在35行这个地方即可，这样就可以识别出你的图片了

修改之后，上述的代码可更新为如下：

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('22.png'), lang='eng') #调用识别引擎识别
text=text.upper() #变大写
print(text)

还是原来的照片，把字符改为大写并输出，结果如下：

sunnychou0330

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python 图片文字识别orc

先下载tesseract.exe,安装，并配置其两个环境变量，安装包下载地址：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，在安装exe的过程中，会有选择语言包，简单的话，可以直接全选，如果不想下那么多的话，可以找几个常用的，比如简体中文、繁体中文、英文、法语等等，在安装界面最后...
复制链接

扫一扫