python+Pysesseract+Tesseract-OCR中文图像识别

最近在研究中文图像识别的内容,发现需要安装一些软件,尤其是要下载并安装Tesseract-OCR,安装后遇到了很多bug(坑),一直运行不了代码,终于查了多好资料,搞定了。如果运行脚本报错,一定是你忘记重启电脑了。
为了大家安装调试能顺利,避免这些坑,决定写一篇文章来介绍整个流程。如果某些地方不明白,可以留言,一一为大家解答!

1. 作者环境说明

操作系统:Windows10
python:3.6
pycharm:2019.2.2

2. 安装相关python包

pip install Pillow
pip install pysesseract

3. 需要下载并安装的软件

下载链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载完后,安装到你对应的目录下

4. 修改pytesseract.py文件

在这里插入图片描述

将tesseract_cmd = 'tesseract’注释掉,修改为
tesseract_cmd = 'D:/Program Files (x86)/Asiainfo/Tesseract-OCR/tesseract.exe' 
具体图片如下

在这里插入图片描述

注意:斜杠/与\的区别

5. 配置Tesseract-OCR环境变量

5.1 控制面板 -> 系统和安全 -> 系统 -> 高级设置
5.2 在弹出的框中, 点 高级 -> 环境变量,如下图所示

在这里插入图片描述

5.3 在弹出的框中,修改用户变量和系统变量中的path路径,在path下添加安装路径,我的路径是 D:\Program Files (x86)\Tesseract-OCR\tessdata ,见下图在这里插入图片描述
5.4 在用户变量和系统变量中,增加变量TESSDATA_PREFIX,具体如下图所示

在这里插入图片描述

6. 非常重要一步:重启电脑,必须重启,不然调试脚本过程中会报错!!!!!

7. 在Pycharm写脚本进行测试

运行测试脚本,脚本内容如下:

在这里插入图片描述

如果可以显示正常结果,则表示安装成功,下面是运行结果

在这里插入图片描述

在这个上基本都能识别出来,但是识别表格中的内容效果不太好,也可能是我初次接触图片识别,没找到更好的方法,会继续探索!
大家如果有什么好的建议,还请大家多多提意见和建议!
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: tesseract-ocr-w64-setup-v5.2.0.20220712.exe是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,支持识别多种语言,包括中文、英文、法语、德语等。该软件提供了一种从图像识别文本的方法,用户可以将扫描或数字化的文档转换成电子文本,从而便于编辑、搜索或转化成其他格式。此版本的tesseract-ocr-w64-setup-v5.2.0.20220712.exe需要在Windows 64位操作系统上运行,并提供了安装程序方便用户快速安装。此外,通过稍微的调整和训练,tesseract-ocr-w64-setup-v5.2.0.20220712.exe可以大大提高识别准确度,并且该软件还可以为不同的应用程序提供API,便于开发人员将其集成到其他应用程序中。总的来说,tesseract-ocr-w64-setup-v5.2.0.20220712.exe是一款功能强大的OCR工具,可以帮助用户处理各种文本识别任务。 ### 回答2: tesseract-ocr-w64-setup-v5.2.0.20220712.exe是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎。它由Google于2005年开发,现在由社区开发和支持。它可以识别各种语言的文本,包括汉语、英语、阿拉伯语等。tesseract的识别准确率随着版本的更新逐渐提高。当前的版本v5.2.0是在2022年7月12日发布的。 tesseract-ocr-w64-setup-v5.2.0.20220712.exe是Windows 64位平台上的安装包。用户可以下载安装包,并进行简单的设置,就可以使用tesseract OCR引擎。tesseract也提供了命令行接口和API接口,可以在不同的应用程序中使用。 tesseract的使用场景非常广泛,例如可以用于数字化图书和文档,提取字幕和照片中的文字,自动化识别票据和账单等。tesseract的识别准确率受到很多因素的影响,例如输入图像清晰度、文字大小和字体等。在使用tesseract时,建议先进行图像处理和预处理,以提高识别结果的准确率。 总的来说,tesseract-ocr-w64-setup-v5.2.0.20220712.exe是一个非常有用的OCR引擎,允许用户在Windows平台上进行光学字符识别。通过它,用户可以将图像中的文本转换成可编辑的文本,从而提高工作效率和准确性。 ### 回答3: tesseract-ocr-w64-setup-v5.2.0.20220712.exe 是一个免费的OCR(Optical Character Recognition,光学字符识别)软件,适用于Windows 64位操作系统。该软件可以读取和识别被扫描的文档、图片、PDF文件等中的文字,并且将其转化为可编辑的文字格式,方便用户进行复制、粘贴、编辑等操作。 tesseract-ocr-w64-setup-v5.2.0.20220712.exe 的安装过程简单,用户只需要下载并运行安装程序即可。在安装完成后,用户可以访问软件的图形用户界面,或者使用命令行工具来执行OCR操作。该软件支持多种语言,包括英语、法语、中文等,并且可以通过将其与第三方程序集成来扩展其功能。 总之,tesseract-ocr-w64-setup-v5.2.0.20220712.exe 是一款强大的OCR工具,可以为用户提供高质量的文本识别服务,帮助用户快速转换图片或PDF文件中的文字内容,提高工作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值