python 图片文字识别orc

  1. 先下载tesseract.exe,安装,并配置其两个环境变量,

安装包下载地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,在安装exe的过程中,会有选择语言包,简单的话,可以直接全选,如果不想下那么多的话,可以找几个常用的,比如简体中文、繁体中文、英文、法语等等,在安装界面最后会有有显示哦!

语言包可以自己下载:github地址

https://github.com/tesseract-ocr/tessdata

下载完放置的地址是:

环境变量:

1)path,放置的是tesseract.exe的文件夹位置,

2)语言包的地址,名称:TESSDATA_PREFIX,把语言包的地址放进去,超级重要!不然后面会一直报错

重启电脑,很重要!我的重启后才生效,有的可能立即就生效!

  • 第二步:pip install pytesseract
  • 第三步代码
  1. import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
    text = pytesseract.image_to_string(Image.open('22.png'))
    
    print(text)

    原图片,运行如下:正确识别出来了字符,但是大小写可能存在一定的差异

第二种,把tesseract-orc的地址放入pytesseract.py中,整个.py文件大概共400行代码,代码简洁,如果有兴趣可以阅读源码,我们把我们下载的tesseract.exe文件放在35行这个地方即可,这样就可以识别出你的图片了

 修改之后,上述的代码可更新为如下:

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('22.png'), lang='eng') #调用识别引擎识别
text=text.upper() #变大写
print(text)

还是原来的照片,把字符改为大写并输出,结果如下:

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值