一、什么是光学文字识别?
简单来说,就是将图片上的文字给识别出来,称为光学文字识别(Optical Character Recognition),简写为OCR。目前市面上这种库并不多,因为做这个需要很强的深度学习功底,而大多数人又不懂这个方面的内容,所以开源的库就更少了,公认的最优秀的开源的OCR库为谷歌赞助开发的Tesseract。
Tesseract是一个开源的OCR引擎,大家均可以免费使用,惠普公司的布里斯托尔实验室在1984-1994年开发完成,起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹,受到广泛关注,后来HP放弃了OCR市场,在1994年以后,Tesseract的开发就停止了。
在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息技术研究所获得该源码,同时,Google开始对Tesseract进行功能扩展及优化。目前,Tesseract作为开源项目发布在Google Project上,重获新生,它支持60种以上的语言,提供一个引擎和一个命令行工具。
二、安装tesseract-ocr
1.双击可执行文件。
2.按照步骤安装即可。
3.设置环境变量
(1)训练数据文件环境变量【环境变量必须为这个名字】
TESSDATA_PREFIX=D:\study\Tesseract-OCR\tessdata
(2)tesseract.exe环境变量
在Path中直接添加即可。
三、在命令行使用tesseract-ocr
1.将【tesseract.exe】所在的文件夹添加到环境变量里面。
2.使用cmd进入到想识别的图片的所在的文件夹内。
使用方法:tesseract eg.png(文件名) eg(识别结果存放的文件)
3.识别中文
使用方法:tesseract eg.png(文件名) eg(识别结果存放的文件) -l chi_sim
四、在Python中使用tesseract-ocr
1.Python需要安装对应的库
(1)在线安装:
pip install pytesseract
(2)离线安装:
下载对应的.whl文件即可安装。
示例博客地址:https://blog.csdn.net/weixin_42830697/article/details/102492605
2.查看对应的版本
3.测试是否安装成功
执行导入操作未报错即表示安装成功!!