Python识别图像中的文字

最新推荐文章于 2024-08-03 15:35:50 发布

CaiJin1217

最新推荐文章于 2024-08-03 15:35:50 发布

阅读量714

点赞数

分类专栏： python机器学习

本文链接：https://blog.csdn.net/CaiJin1217/article/details/82628082

版权

python机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

按步骤……….
一步一步来
一、配置运行环境
1、安装PIL：pip install Pillow
2、安装pytesseract：pip install pytesseract
3、安装Tesseract-OCR：https://github.com/UB-Mannheim/tesseract/wiki （进入网页下载安装包）
(1)安装Tesseract-OCR可以直接使用傻瓜安装法，但是在选择语言那一步一定要选中文，不然会报错
这里写图片描述
（中文选项在最后一个选项里，可以直接选择最后一项全部安装，非常耗时；也可以只选择自己需要的几种语言）
是不是觉得可以用了？不！还得接着配置。
(2)、打开源代码

（我用的是pycharm）
选中pytesseract，然后Ctrl+B进入它的*__init.py__文件，接着选中pytesseract然后Ctrl+B
这里写图片描述
修改文件里的路径（以自己安装的为主）

(3)、这并没有结束，来来来，我们接着配置：
设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
（如何配置环境变量：此电脑右键=》属性=》高级系统设置=》右下角“环境变量”）
这样就算是安装完成了，如果出错了……………….那你重启一下（可能是环境变量的原因）

终于大功告成
二、代码部分

#coding=utf-8
from PIL import Image
import pytesseract
Img = Image.open('output/3.jpg')
text=pytesseract.image_to_string(Img,lang='chi_sim')
print(text)

三、效果如下
个别字还是有错~_~
这里写图片描述