java语言下利用tess4j开源库进行图片中的文本提取

本文介绍了如何在Java环境下利用Tess4J库进行图片中的文本提取。首先,简单阐述了Tess4J是Tesseract OCR API的Java封装。接着,详细讲解了Tess4J的环境配置,包括下载jar包、引入中文字库。最后,提到了在Eclipse IDE中的具体代码实现步骤,包括项目结构设置和Tess4JHelper类的创建。同时,文中还对比展示了中文和英文识别的效果。
摘要由CSDN通过智能技术生成

一,tess4j 简单介绍

Tess4J是对tesseract -OCR API.的Java JNA 封装,使java能够通过调用Tess4J的API来使用tesseract -OCR

我有一篇博客也介绍了tesseract -OCR如何使用tesseract -OCR进行图片识别 

java代码实现DOS命令使用tesseract -OCR开源引擎实现图片文字识别

 

二,tess4j环境准备

官网下载tess4j的jar包 https://sourceforge.net/projects/tess4j  解压之后目录结构如下,tess4j的iar包在dist目录里面

如果要进行中文字符识别,需要下载中文字库,可自行百度,我也提供了百度网盘链接https://pan.baidu.com/s/1dmpqQ8Cm7Cd5zaLC0ZOZaw

 

三,Eclipse IDE下的代码实现

1. 新建一个java项目

2.导入tess4j的dist文件夹下的tess4j jar包和lib文件夹下的全部jar包,

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
注:下文的 *** 代表文件名的组件名称。 # 包含: 文-英文对照文档:【***-javadoc-API文档-文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: 文-英文对照文档,英对照文档,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【***.jar文文档.zip】,再解压其的 【***-javadoc-API文档-文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·本文档为双语同时展示,一行原文、一行译文,可逐行对照,避免了原文/译文来回切换的麻烦; ·有原文可参照,不再担心翻译偏差误导; ·边学技术、边学英语。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;
要使用Tess4J获取图片某个文字的坐标,你需要使用以下代码: 首先,你需要引用Tess4J。具体方法请参考Tess4J的官方文档。 然后,你可以使用以下代码来获取图片某个文字的坐标: ```java import java.awt.Rectangle; import java.awt.image.BufferedImage; import java.io.File; import javax.imageio.ImageIO; import net.sourceforge.tess4j.ITesseract; import net.sourceforge.tess4j.ITesseract.RenderedFormat; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.util.ImageHelper; public class Tess4JTest { public static void main(String[] args) throws Exception { File imageFile = new File("image.png"); BufferedImage bufferedImage = ImageIO.read(imageFile); ITesseract tesseract = new Tesseract(); tesseract.setDatapath("tessdata"); tesseract.setLanguage("eng"); String result = tesseract.doOCR(bufferedImage); System.out.println(result); Rectangle rect = new Rectangle(0, 0, bufferedImage.getWidth(), bufferedImage.getHeight()); String hocr = tesseract.getHOCRText(bufferedImage, rect); System.out.println(hocr); } } ``` 在上面的代码,我们首先使用`ImageIO`类读取了一张图片,并将其转换为`BufferedImage`对象。然后,我们使用Tess4J的`ITesseract`接口创建了一个Tesseract对象,并设置了Tesseract的数据路径和语言。接下来,我们调用`doOCR`方法来识别图片的文字,并将识别结果打印出来。 最后,我们使用`getHOCRText`方法来获取HOCR格式的识别结果,并将其打印出来。HOCR格式的识别结果包含了每个文字的坐标信息,你可以从提取出你需要的文字的坐标。 注意:如果你使用的是非英文语言,你需要下载对应的语言包,并将其放置在Tesseract的数据目录。另外,你还需要修改代码语言设置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赴前尘

喜欢我的文章?请我喝杯咖啡吧!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值