Tess4j linux 32,Tess4j文字识别库的相关研究

本文详细介绍了如何在Linux 32位系统中使用Tess4j进行文字识别,包括依赖的引入、基本使用、优化策略如图像处理和设置配置文件。此外,还探讨了如何从Jar包中抽取训练数据,并提供了示例代码以展示如何进行OCR操作。最后,提到了输出格式如HOCR和多种语言支持。
摘要由CSDN通过智能技术生成

Tess4j是Tesseract文字识别引擎的基于Java的Wrapper.

用Gradle引入

调用Tess4j的Gradle:

dependencies {

testCompile group: 'junit', name: 'junit', version: '4.12'

}

简单使用

Tess4J的使用比较简单,创建Tesseract对象之后调用DoOCR即可。

注意需要设置一下训练数据的路径。如果你配置了环境变量TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata 的话,可以不需要在代码里面指定。

Tesseract instance = new Tesseract();

instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");

instance.setPageSegMode(PageSegMode);

instance.setLanguage(language);

String result = instance.DoOCR("test.jpg");

但是这种默认的识别,效果并不是特别好。为了提升识别效果,可以做一些优化

反转为白底黑字,提升效果显著

只识别特别的区域,提升效果显著

设置特定的分页模式,识别效果显著

灰度化,提升效果中等

提升识别效果

识别可以指定相应的DoOCR函数来识别指定的区域。

对于4.0版本

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值