基于python的OCR字符识别

梦因you而美

已于 2022-06-09 10:25:40 修改

阅读量7.6k

点赞数 3

分类专栏：随手记文章标签： OCR字符识别 python Tesseract-OCR Tesseract

于 2019-08-09 17:55:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/apollo_miracle/article/details/98967029

版权

随手记专栏收录该内容

72 篇文章 5 订阅

订阅专栏

官方网站：https://github.com/tesseract-ocr/tesseract
官方文档：https://github.com/tesseract-ocr/tessdoc
语言包地址：https://github.com/tesseract-ocr/tessdata
下载地址：https://digi.bib.uni-mannheim.de/tesseract/

1 基本环境

操作系统：win10 64位系统

python版本：3.6

2 安装配套环境

（1）首先安装OCR字符识别库Tesseract 下载网址：Index of /tesseract

下载下图对应的版本（如下图所示）

下载后双击进行安装，在这里（如下图）要根据需求在安装界面进行语言勾选，展开Additional language data

然后按照下图进行勾选（本人选择的是中文）

然后点击next安装即可（注意：在选择安装路径的时候不要出现中文，并且要记住这个安装路径）。我的路径为：

D:\Tesseract-OCR

接下来配置环境变量。

通过控制面板找到环境变量配置界面如下（找不到环境变量配置的自行百度）：

分别对用户变量PATH和系统变量Path添加刚才的安装目录 D:\Tesseract-OCR;

环境变量修改好之后验证下是否安装成功。打开cmd命令行工具敲入命令：

Tesseract -v

出来如下界面说明成功

（2）安装python环境

pip install Pillow==5.2.0
pip install pytesseract==0.2.4

3 测试

将以下图片保存为OCR_test.png，然后放在桌面上

在cmd窗口中执行 tesseract test.jpg test.txt –l chi_sim+eng（chi_sim是中文识别包，equ是数学公式包，eng是英文包），即可将图片中的文字识别出来

tesseract OCR_test.png OCR_test –l chi_sim+eng

效果图如下：

梦因you而美

关注

3
点赞
踩
47

收藏

觉得还不错? 一键收藏
0
评论
基于python的OCR字符识别

1 基本环境操作系统：win10 64位系统python版本：3.62 安装配套环境（1）首先安装OCR字符识别库Tesseract 下载网址：https://digi.bib.uni-mannheim.de/tesseract/下载下图对应的版本（如下图所示）下载后双击进行安装，在这里（如下图）要根据需求在安装界面进行语言勾选，展开Additional lang......
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。