linux下使用tess4j实现图片OCR功能

前言

在做工具站的时候想给网站添加个图片OCR功能,最终选择tess4j来实现。在使用过程中遇到了一些问题。在此记录下。

Java 代码实例

1.引入maven

 <dependency>
	 <groupId>net.sourceforge.tess4j</groupId>
	 <artifactId>tess4j</artifactId>
	 <version>5.3.0</version>
</dependency>

工具类代码

package util;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Tesseract1;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

/**
 * @author:zzy
 * @date:Created in 2023/4/14 21:32
 * @modified By:zzy
 */
public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}

tessdata模型文件下载地址 https://github.com/tesseract-ocr/tessdata

问题与解决办法。

1.在windows下添加环境变量。模型文件存放位置。
在这里插入图片描述

2.Tess4j 不是夸平台的。只对windows开箱即用。
打包部署到linux系统。突然发现调用工具类方法的时候突然报错了。在查询一些资料后发现tess4j本身并不是跨平台的。我的服务器使用的是linux系统。所以需要进行单独配置。

  • 安装gcc g++ 环境
yum install gcc gcc-c++ make
  • 安装 autoconf automake libtool和libjpeg-devel libpng-devel libtiff-devel zlib-devel
 yum install autoconf automake libtool
 yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
  • 安装依赖的Leptonica库,依次执行以下命令安装,leptonca版本可以根据实际情况更换,资源地址
wget https://github.com/DanBloomberg/leptonica/releases/download/1.82.0/leptonica-1.82.0.tar.gz
tar -xzvf leptonica-1.82.0.tar.gz
cd leptonica-1.82.0
./configure
make && make install
  • 加入环境变量
vim /etc/profile
在最后插入
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
保存退出后执行下面命令 让配置生效
source /etc/profile
  • 安装Tesseract-OCR,依次执行以下命令完成安装
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.2.0.tar.gz
重名名下压缩包
mv 5.2.0.tar.gz tesseract-5.2.0.tar.gz
tar -xzvf tesseract-5.2.0.tar.gz 
cd tesseract-5.2.0/
./autogen.sh
./configure
make && make install
sudo ldconfig
  • 复制tess4j要的一些so文件复制到 lib64下。
cp /usr/local/lib/*.so.* /usr/lib64/
  • 检查下是否安装成功
    在这里插入图片描述

  • 也可以使用下面命令直接进行ocr。查看结果验证程序是否安装完成。

tesseract card.jpg c -l chi_sim

3.第二步执行完毕后。发现调用程序还是报错。甚至会把整个程序宕掉。提示信息如下。将环境变量TESSDATA_PREFIX配置到/etc/profile中刷新配置文件发现并没有作用。

Note: further occurrences of this error will be logged at DEBUG level.
Error opening data file ./chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!

解决办法:在工具类中指定模型文件所在位置。

public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        instance.setDatapath("/usr/tessocr/tesseract-5.2.0/tessdata");
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}

第三点问题到最终也不知道为什么。如果有哪位大佬知道原因。可以在评论指导下。

最后希望这篇文章能给需要的朋友们提供一点点帮助吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

残城碎梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值