【基于pytesseract进行图片文字识别】


前言

我有一个图片,他上面的文字我觉得对我有用,我想把它摘下来,但是,我懒,不想一个一个手巧,又不想借助其他的软件进行识别,就想自己写串代码实现图片的文字识别,怎么办呢?来瞅瞅这篇文章吧(此文章最好用于截图之类规范文章的图片)。


一、模块pytesseract实现图片文字OCR识别过程

1.了解

OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术,可以将图片,纸质文档中的文本转换为数字形式的文本。
pytesseract是基于Python的OCR工具, 底层使用的是Google的Tesseract-OCR 引擎,支持识别图片中的文字,支持如下格式。
在这里插入图片描述

2.下载

传送门点击进入
在这里插入图片描述
在这里面,往下翻找下图这种,已经完成的。
在这里插入图片描述
接着下载安装到想要安装的磁盘,我就默认安装到了c盘
在这里插入图片描述
记得勾选想要的而语言
安装完后添加系统环境变量
在这里插入图片描述
新创建一个如下图添加。
在这里插入图片描述
确认完后,接着按住win+r输入cmd回车,在里面输入
tesseract -v
出现版本号之类的为安装配置成功

tesseract --list-langs
在这里插入图片描述
出现上图为语言

3.后续添加语言

传送门打开往下拉,选择下载,下载下来的文件放到最开始安装pytesseract-ocr的文件夹下的tessdata目录下,如图
在这里插入图片描述

4.下载相应的库

pip install pytesseract
pip install Pillow # 用于处理图像

二、使用步骤

import pytesseract
# pillow 安装的库名与导入的包名是不一样的
from PIL import Image

# 找自己的tesseract.exe放在哪个目录下
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 
# 1 加载图片
image = Image.open('图片.png')
# 2. 识别图片上的文字
string = pytesseract.image_to_string(image,lang='chi_sim')
# 3. 打印识别的文字
print(string)

图片如下
在这里插入图片描述
运行结果如下(有的识别不是很准确)
在这里插入图片描述

注: lang=’ ’ 根据图片的内容进行修改,本图片中文居多,所以用此,添加的内容在tessdata文件夹找,或查看目前所有语言进行使用


总结

首先要注意,此方法并不能很好的去识别一些图片,那秀娥图片可能需要经过图片的预处理然后使用,有关于py的问题,可以 点击传送门提问探讨。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ฅ˙Ꙫ˙ฅ599

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值