只需要几行代码就可以轻松实现OCR图片转文字

最新推荐文章于 2025-04-12 22:34:00 发布

Python数据挖掘

最新推荐文章于 2025-04-12 22:34:00 发布

阅读量2.1k

点赞数

分类专栏： python 文章标签： python python开发 ocr 图片文字

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34160248/article/details/124190834

版权

python 专栏收录该内容

503 篇文章

订阅专栏

OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。

下载安装包

tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/

进入下载页面。

可以看到有各种.exe文件的下载列表，根据自己需求下载(其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，例如可以选择下载tesseract-ocr-setup-4.0.0-alpha.20170804。)

安装

下载后傻瓜式安装即可。

这里选择语言包，简体中文(但勾选语言包较多时下载较慢，本人建议直接安装，安装后根据需要再去下载语言包。)

选择合适的安装路径完成安装。

环境变量配置

设置环境变量，进入环境变量中，找path，新建路径。如图：

测试

查看是否安装成功，打开cmd，输入tesseract -v回车，若显示版本号即为安装成功。如图：

测试文件

我在网上随便找了两首古诗竟是文字识别测试，如下

python库

所需第三方库安装方式

# pytesseract安装：
pip install pytesseract

# PIL安装：
pip install pillow

测试结果

短短七行代码即可实现图片转文字，结果如下：

问题汇总

Tesseract在安装过程中出现Download error Status of equ: Send Request Error. Click OK to continue！！！已解决

出错的原因应该是，墙的问题，，请求失败，尝试管理员身份还是失败，，，既然download失败，那么就换种方式下载

Github上下载自己需要的语言包

https://tesseract-ocr.github.io/tessdoc/Data-Files ，

获取到语言包后直接解压，并且再次配置环境变量如下：

点击我的电脑–>属性–>高级设置—>环境变量---->path下面的—>新建—>变量名：TESSDATA_PREFIX---->变量值：前面的加上\tessdata

将下载好的语言包解压，打开tessdata文件夹

然后将其复制到tessdata中。

最后，重启一下电脑！！！！

然后win+R 快捷打开cmd，输入tesseract --list-langs 就可，就可以看到所有的语言类型了。

推荐文章

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

在这里插入图片描述

目前开通了技术交流群，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号：dkl88191，备注：来自CSDN
方式③、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

长按关注

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。