光学文字识别(OCR)

最新推荐文章于 2024-08-02 03:26:32 发布

Python伊甸园

最新推荐文章于 2024-08-02 03:26:32 发布

阅读量5k

点赞数

分类专栏： pytesseract OCR Tesseract 文章标签：光学文字识别 OCR Tesseract tesseract-ocr pytesseract

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42830697/article/details/103271491

版权

pytesseract 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一、什么是光学文字识别？

简单来说，就是将图片上的文字给识别出来，称为光学文字识别(Optical Character Recognition),简写为OCR。目前市面上这种库并不多，因为做这个需要很强的深度学习功底，而大多数人又不懂这个方面的内容，所以开源的库就更少了，公认的最优秀的开源的OCR库为谷歌赞助开发的Tesseract。

Tesseract是一个开源的OCR引擎，大家均可以免费使用，惠普公司的布里斯托尔实验室在1984-1994年开发完成，起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹，受到广泛关注，后来HP放弃了OCR市场，在1994年以后，Tesseract的开发就停止了。

在2005年，HP将Tesseract贡献给开源社区。美国内华达州信息技术研究所获得该源码，同时，Google开始对Tesseract进行功能扩展及优化。目前，Tesseract作为开源项目发布在Google Project上，重获新生，它支持60种以上的语言，提供一个引擎和一个命令行工具。

二、安装tesseract-ocr

1.双击可执行文件。

2.按照步骤安装即可。

3.设置环境变量

(1)训练数据文件环境变量【环境变量必须为这个名字】

TESSDATA_PREFIX=D:\study\Tesseract-OCR\tessdata

(2)tesseract.exe环境变量

在Path中直接添加即可。

三、在命令行使用tesseract-ocr

1.将【tesseract.exe】所在的文件夹添加到环境变量里面。

2.使用cmd进入到想识别的图片的所在的文件夹内。

使用方法：tesseract eg.png(文件名) eg(识别结果存放的文件)

3.识别中文

使用方法：tesseract eg.png(文件名) eg(识别结果存放的文件) -l chi_sim

四、在Python中使用tesseract-ocr

1.Python需要安装对应的库

(1)在线安装：

pip install pytesseract

(2)离线安装：

下载对应的.whl文件即可安装。

示例博客地址：https://blog.csdn.net/weixin_42830697/article/details/102492605

2.查看对应的版本

3.测试是否安装成功

执行导入操作未报错即表示安装成功！！

Python伊甸园

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。