java tesseract识别中文图片_基于Tesseract实现图片文字识别

最新推荐文章于 2024-08-24 14:11:28 发布

大脸猫000111

最新推荐文章于 2024-08-24 14:11:28 发布

阅读量441

点赞数

文章标签： java tesseract识别中文图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42309456/article/details/114863471

版权

本文介绍了如何使用Tesseract 4 OCR引擎在Java环境下识别中文图片文字，包括安装Tesseract、Python环境下的简单示例、Java程序的数据预处理以及识别结果分析，强调了数据清洗的重要性。

摘要由CSDN通过智能技术生成

一.简介

Tesseract是一个开源的文本识别【OCR】引擎，可通过Apache 2.0许可获得。它可以直接使用，或者使用API从图像中提取打印的文本，支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于LSTM的OCR引擎，该引擎专注于行识别，但仍支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式进行工作。通过使用传统OCR引擎模式【--oem 0】，可以与Tesseract 3兼容。它还需要训练好的数据文件对旧引擎进行支持，例如tessdata目录下的数据文件。

特点：

1.具有Unicode【UTF-8】支持，并且可以“开箱即用”地识别100多种语言。

2.支持各种输出格式，纯文本，hOCR【HTML】，PDF，仅不可见文本的PDF，TSV。Master分支还对ALTO【XML】输出提供实验性支持。

3.在许多情况下，要想获得更好的OCR结果，需要提高提供给Tesseract的图像的质量。

二.在python环境中安装pytesseract

安装成功！

三.在Windows系统下安装Tesseract

配置环境变量：

备注：最新的为4.1.0，建议安装4.x版本，根据一可知，版本4有重大升级，系统性能显著提升，特别是在对中文的识别上更是明显！

四.python代码实现

1 #-*- coding: utf-8 -*-

2 """

3 Spyder Editor4

5 This is a temporary script file.6 """

7

8 importpytesseract9 from PIL importImage10

11 #打开验证码图片

12 image = Image.open('E:\\testData\\tess\\1.png')13 #加载一下图片防止报错，此处可以省略

14 #image.load()

15 #调用show来展示图片，调试用此处可以省略

16 #image.show()

17 text

最低0.47元/天解锁文章

大脸猫000111

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。