Python识别图像中的文字

按步骤……….
一步一步来
一、配置运行环境
1、安装PIL:pip install Pillow
2、安装pytesseract:pip install pytesseract
3、安装Tesseract-OCR:https://github.com/UB-Mannheim/tesseract/wiki (进入网页下载安装包)
(1)安装Tesseract-OCR可以直接使用傻瓜安装法,但是在选择语言那一步一定要选中文,不然会报错
这里写图片描述
(中文选项在最后一个选项里,可以直接选择最后一项全部安装,非常耗时;也可以只选择自己需要的几种语言)
是不是觉得可以用了? 不!还得接着配置。
(2)、打开源代码
这里写图片描述
(我用的是pycharm)
选中pytesseract,然后Ctrl+B进入它的*__init.py__文件,接着选中pytesseract然后Ctrl+B
这里写图片描述
修改文件里的路径(以自己安装的为主)
这里写图片描述

(3)、这并没有结束,来来来,我们接着配置:
设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
(如何配置环境变量:此电脑右键=》属性=》高级系统设置=》右下角“环境变量”)
这样就算是安装完成了,如果出错了……………….那你重启一下(可能是环境变量的原因)

终于大功告成
二、代码部分

#coding=utf-8
from PIL import Image
import pytesseract
Img = Image.open('output/3.jpg')
text=pytesseract.image_to_string(Img,lang='chi_sim')
print(text)

三、效果如下
个别字还是有错~_~
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页