图像识别—tesseract
Python进行图像识别主要是要安装pillow包,和pytesseract
并且系统得安装软件tesseract,同时,记得如果想要识别汉字,需要载入中文包,
经过我的反复实践,发现tersseract虽然对英文的识别成功率很高,但是对中文却不是友好,应该是汉化中文包训练不足吧
所有就提供一些链接供大家思考,不再重点讨论
https://www.liangzl.com/get-article-detail-17307.html
https://www.cnblogs.com/wobeinianqing/p/8663733.html
https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
https://github.com/tesseract-ocr/tessdata
下载中文包
https://www.cnblogs.com/nyist-xsk/p/7762476.html
图像识别—baidu-aip
百度aip针对多个语言提供SDK
鉴于python的简洁性,我们就以python为例,目前百度智能云产品提供给个人使用免费,当然收费的功能比个人功能强大的多
pip install baidu-aip
https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E5.AE.89.E8.A3.85OCR.20Python.20SDK
识别所采用的的实例文件
从上面结果可以看出如果只打印百度云给你识别的结果我们会发现结果断断续续,所以我对结果进行提取,拼接,是不是更适合人类阅读
今天的分享到此结束