python文字识别_Python+Tesseract文字识别

本文介绍了在Windows上如何下载、安装和配置Tesseract,包括安装Python的pytesseract库,添加语言包环境变量,以及调整pytesseract库的Tesseract.exe路径。通过示例代码展示了Tesseract对英文和中文的识别效果,强调了图片质量和前期处理的重要性。
摘要由CSDN通过智能技术生成

afa655aedf3a4f800b0ac6a1e85ba8a8.png

Sunday, February 16, 2020 ---Andy 前言:文字识别是所有文字类识别的基础,比如身份证,火车票,证件等自动识别...。所以它在文字类识别尤为重要,故今天咱们来看下py+tsrt如何识别文字。 闲话:Tesseract主要特点-->开源、免费、识别无需联网、可训练自己的字库。

一、Tesseract在Windows的下载、安装及配置

1-1 下载

1-1-1 安装包:https://digi.bib.uni-mannheim.de/tesseract/1-1-2 语言包:https://github.com/tesseract-ocr/tessdata (默认是支持英文的,中文识别需下载语言包:chi_tra.traineddata、chi_sim.traineddata)

1-2 安装及配置

1-2-1 安装Tesseract:双击安装包,选择安装位置,一直下一步就可以。1-2-2 安装python的pytesseract库:pip install pytesseract1-2-3 配置:

26ba82d36b1fbd3edcaf701b73af7422.png

配置1(添加语言包环境变量)

12f40ab95ca3aee8c8dd205a5e22243c.png

配置2(修改pytesseract库调用Tesseract.exe位置)

57cb7fba9e3ead20a88961a4f5757114.png

配置3(添加中文语言包)

二、识别测试代码

from PIL import Image
import pytesseract

# 英文识别测试
img_en = Image.open('OCR_test_en.png')
ocr_result_en = pytesseract.image_to_string(img_en)
print(ocr_result_en)

# 中文识别测试
img_zh = Image.open('OCR_test_zh.png')
ocr_result_zh = pytesseract.image_to_string(img_zh, lang='chi_sim')
print(ocr_result_zh)
三、效果

db6b88803d1c08e12264f6864182e7c2.png

1.英文识别效果

30107b112441c0694e75cfbb24ba764a.png

2.中文识别效果

  总结:英文效果不错,中文还行。另外,识别效果依赖于图片质量,所以拍摄高质量的图片及图片前期处理(对齐、去噪等)很重要。

最后

[1].代码截止2020-02-16调试无误。
[2].如需全部代码及相关文件,留言邮箱。
[3].过程中有任何问题,欢迎交流!Q597966823

  让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值