在《怎么用python识别图片中的文字?》里面,我介绍了使用百度AI的文字识别功能识别图片文字的方法。
今天,终于安装了Pillow模块,于是得到另一种识别图片的方法。
下图是两种方法的识别结果。
工具/原料
电脑
python3
准备工作
1
python3以上的版本,没有对应的PIL模块,需要你用pip安装pillow模块。
2
还需要安装pytesseract模块,看下面的图。
3
下载并安装tesseract-ocr:
下载地址是: https://pan.baidu.com/s/1dGZDb4P 。
压缩包大小是33.8MB。
密码是fnxr。
4
解压之后,有三个文件夹,包括:
源码、安装包、中文语言包。
请点击tesseract-ocr-setup.exe进行安装,安装的时候,请记住安装目录。
5
安装完成之后,把中文语言包里面的文件,移动到Tesseract-OCR安装目录下的tessdata文件夹里面。
6
然后打开pytesseract扩展包里面的pytesseract.py文件,修改代码:
把tesseract_cmd后面的参数,改为tesseract.exe的绝对路径。
到此,准备工作就算是完成了。
END
试验
1
导入模块:
from PIL import Image
import pytesseract
2
加载图片:
a = Image.open('C:……/b.png')
3
显示图片:
a.show()
4
识别图片里面的文字:
text=pytesseract.image_to_string(a,lang='chi_sim')
指定语言为中文。
5
输出识别结果:
print(text)
6
准确率如何?
我只能说,结果不佳。
对比一下原图。
7
再换一幅图片。
8
识别结果,让人抓狂。
9
对比:
pytesseract识别中文;
百度AI识别中文。
END
注意事项
与《怎么用python识别图片中的文字?》里面的方法进行对比,可以发现,外国的中文文字识别能力,与本土的百度AI的识别能力,差的不是一丁半点。
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。
展开阅读全部