Python-Tesseract实现图片文字识别(更新)

什么是OCR?

OCR,全称Optical Character Recognition ,中文释义为光学字符识别,是指对一个包含文本信息的图片文件的识别,目前比较流行的OCR有tesseractOCR和cnOCR,在这篇文章中我们使用识别效果较好的tesseractOCR。

安装Tesseract-OCR和pytesseract

首先我们要安装tesseract,这两个网址任选其一即可:

Home · UB-Mannheim/tesseract Wiki (github.com)

在这里插入图片描述
Index of /tesseract
在这里插入图片描述
解释一下这些名称的含义,我们以最新版本v5.20举例:
在这里插入图片描述
w64的w是指Windows系统,64则是指电脑CPU采用64位处理技术,setup就是安装包,后面的版本号很好理解了。但是如果版本号后面跟上alpha,dev的话就是指这个安装包为开发版或是预览版,大多数程序的开发板大多不稳定,所以这里我们就是用最新的v5.2.0稳定版安装包。

点击下载,下载完成后运行安装程序:
在这里插入图片描述
选择语言,没有中文,只好选英文。
在这里插入图片描述

然后一直next,但是注意!在选择安装语言时这个Additional lauguage data千万不要全选,要不然下载过程特别慢,如果需要的话,只安装里面的 Chinese与English组件就行了。
在这里插入图片描述

接下来就比较简单了,直接next,等待安装完成即可。

安装完成后我们还得添加环境变量,打开自己安装tesseract的文件夹,复制路径:
在这里插入图片描述

回到桌面,右键此电脑:在这里插入图片描述
选择属性,点击高级系统设置,环境变量:
在这里插入图片描述
在这里插入图片描述

打开环境变量,双击用户变量的Path,新建变量:
在这里插入图片描述

把复制的路径粘贴进去,点确定,我们的环境配置就完成了。

验证安装

win+r,输入cmd,输入 tesseract -v 再回车,如果出现了tesseract的版本信息就说明配置成功了。
在这里插入图片描述

为了在python中使用tesseract,我们需要安装pytesseract,直接在cmd中用pip安装就好了:

pip install pytesseract

在这里插入图片描述

(无视里面的黄色字体,是我电脑的问题,对安装什么的没有影响)

实现自动识别文字

打开python编辑器,把这段代码复制进去:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'D://Tesseract-OCR//tesseract.exe'  # 替换成你自己的tesseract安装路径

text = pytesseract.image_to_string(Image.open('D://input.png'))	# 替换成要识别的图片路径
print(text)

用windows自带画图随便做个图:
在这里插入图片描述

运行输出为 Hello world ,完美。

在这里插入图片描述

怎么样,好玩吧?不仅这样,tesseract还可以识别中文!只不过得安装相应的库,这是下载链接:
https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
下载下来中文训练包后,把包放到tessdata中就可以识别中文了。

  • 6
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值