【案例分享】利用Python识别图片中的文字

最新推荐文章于 2024-08-07 17:00:51 发布

张陈亚

最新推荐文章于 2024-08-07 17:00:51 发布

阅读量3.9k

点赞数 4

分类专栏： python 人工智能文章标签： python 人工智能

本文链接：https://blog.csdn.net/weixin_42163563/article/details/113767107

版权

python 同时被 2 个专栏收录

417 篇文章 111 订阅

订阅专栏

人工智能

3 篇文章 1 订阅

订阅专栏

前言：现在网络上有很多文章，安装包、代码都不全，胖哥对此重新梳理后，把用到的数据和代码全部奉上，如果想直接要数据和代码，请查看文章最后！！！

说明：最近由于个人的需求，需要从一些图片上，把文字弄出来；如果一个一个手打太慢了，结果想到了Python，感觉学习Python用处还是非常多的。

1. Tesseract介绍及配置

文字识别是ORC的一部分内容，ORC的意思是光学字符识别，通俗讲就是文字识别。Tesseract是一个用于文字识别的工具，我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。

（1）Tesseract的安装及配置

Tesseract的安装包可以从网址 https://digi.bib.uni-mannheim.de/tesseract/上下载（官网下载很慢）或者从胖哥文章最后提供的百度网盘链接下载也可以的。

安装过程就不多说了，windows安装很简单，一步一步执行就行。

注意事项：

1. 将安装目录配置到系统path变量当中，我们路径是C:\Program Files (x86)\Tesseract-OCR；

2. 设置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根据自己的安装目录)

（2）如果需要中文语言包，需要把网盘里面的chi_sim.traineddata文件，放到如下目录

（3）测试是否安装成功:有如下信息代表安装成功

2. 编写文字识别的代码：

常见问题：

1.FileNotFoundError:[WinError 2]系统找不到指定文件。

解决办法：

打开文件pytesseract.py，找到如下代码，将tesseract_cmd的值修改为全路径，再次使用就不会报这个错了。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'