python pil 图片识别_Python Tesseract 图片识别-小操练

最新推荐文章于 2021-08-22 21:41:30 发布

weixin_39882870

最新推荐文章于 2021-08-22 21:41:30 发布

阅读量221

点赞数

文章标签： python pil 图片识别

OCR Tesseract 中文识别图像处理 Python

关键词由CSDN通过智能技术生成

小科普

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息.

Tesseract的OCR引擎最先由HP实验室于1985年研发，2005年，交由Google对Tesseract进行改进、优化工作。

准备工作

1.PIL 、Pytesseract

from PIL import Image

from pytesseract import image_to_string

ok 用画图工具整张简单的图片(vm3.png)小试牛刀

上代码

from PIL import Image

from pytesseract import image_to_string

img = Image.open("vm3.png");

text = image_to_string(img)

print(text)

别走，留步，真的只有那么多，不信看结果

支持中文

but,Tesseract是老外开发的，默认不支持中文，需要我们加个中文语言包

将文件chi_sim.traineddata (密码：3mzq) 放到安装目录：Tesseract-OCR\tessdata文件夹内，再整张图

代码骚作修改(，lang='chi_sim')即可

from PIL import Image

from pytesseract import image_to_string

img = Image.open("vm3.png");

text = image_to_string(img,lang='chi_sim')

print(text)

没毛病

骚微复杂图像处理

其实，复杂图片的来不了，需要处理一下，比如这张图片：

这样处理：

img = Image.open("vm.png");

imgry = img.convert("L")

threshold = 140

table = []

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

out = imgry.point(table, '1')

out.show()

show()一下处理后的结果：

最后，整合一下：

img = Image.open("vm.png");

imgry = img.convert("L")

threshold = 140

table = []

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

out = imgry.point(table, '1')

text = image_to_string(out)

print(text)

我就知道你会回来，如果你在运行中遇到以下问题：

tesseract is not installed or it's not in your path

一图解万愁

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

Failed loading language 'eng'

Tesseract couldn't load any languages!

添加环境变量：

变量名：TESSDATA_PREFIX

变量值：testdata的路径

如果加了还不行，重启电脑！

如果还不行，试试百度OCR的吧

如果你用来作为验证码识别。可能会用到截屏和裁剪

weixin_39882870

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python pil 图片识别_Python Tesseract 图片识别-小操练

小科普光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息.Tesseract的OCR引擎最先由HP实验室于1985年研发，2005年，交由Google对Tesseract进行改进、优化工作。准备工作1.PIL 、Pytesseractfrom PIL import Imagefrom pytess...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。