【案例分享】利用Python识别图片中的文字

前言:现在网络上有很多文章,安装包、代码都不全,胖哥对此重新梳理后,把用到的数据和代码全部奉上,如果想直接要数据和代码,请查看文章最后!!!

 说明:最近由于个人的需求,需要从一些图片上,把文字弄出来;如果一个一个手打太慢了,结果想到了Python,感觉学习Python用处还是非常多的。

1. Tesseract介绍及配置

文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别。Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。

(1)Tesseract的安装及配置

Tesseract的安装包可以从网址 https://digi.bib.uni-mannheim.de/tesseract/上下载(官网下载很慢)或者从胖哥文章最后提供的百度网盘链接下载也可以的。

安装过程就不多说了,windows安装很简单,一步一步执行就行。

注意事项:

1. 将安装目录配置到系统path变量当中,我们路径是C:\Program Files (x86)\Tesseract-OCR;

2. 设置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根据自己的安装目录)

(2)如果需要中文语言包,需要把网盘里面的chi_sim.traineddata文件,放到如下目录

(3)测试是否安装成功:有如下信息代表安装成功

 

 2. 编写文字识别的代码:

常见问题:

1.FileNotFoundError:[WinError 2]系统找不到指定文件。

解决办法:

打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径,再次使用就不会报这个错了。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

需要安装包和完整Python代码的朋友们,请关注如下微信公众号,回复"识别图片文字",即可获取完整内容;

添加胖哥微信:zy10178083,回复"入群",胖哥拉你进去python学习交流群,胖哥会不定期分享干货!

微信公众号:胖哥真不错。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张陈亚

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值