linux下使用tess4j实现图片OCR功能

最新推荐文章于 2024-06-27 17:40:07 发布

残城碎梦

最新推荐文章于 2024-06-27 17:40:07 发布

阅读量646

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_42232296/article/details/130213180

版权

前言

在做工具站的时候想给网站添加个图片OCR功能，最终选择tess4j来实现。在使用过程中遇到了一些问题。在此记录下。

Java 代码实例

1.引入maven

 <dependency>
	 <groupId>net.sourceforge.tess4j</groupId>
	 <artifactId>tess4j</artifactId>
	 <version>5.3.0</version>
</dependency>

工具类代码

package util;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Tesseract1;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

/**
 * @author:zzy
 * @date:Created in 2023/4/14 21:32
 * @modified By:zzy
 */
public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}

tessdata模型文件下载地址 https://github.com/tesseract-ocr/tessdata

问题与解决办法。

1.在windows下添加环境变量。模型文件存放位置。
在这里插入图片描述

2.Tess4j 不是夸平台的。只对windows开箱即用。
打包部署到linux系统。突然发现调用工具类方法的时候突然报错了。在查询一些资料后发现tess4j本身并不是跨平台的。我的服务器使用的是linux系统。所以需要进行单独配置。

安装gcc g++ 环境

yum install gcc gcc-c++ make

安装 autoconf automake libtool和libjpeg-devel libpng-devel libtiff-devel zlib-devel

 yum install autoconf automake libtool
 yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装依赖的Leptonica库，依次执行以下命令安装，leptonca版本可以根据实际情况更换，资源地址

wget https://github.com/DanBloomberg/leptonica/releases/download/1.82.0/leptonica-1.82.0.tar.gz
tar -xzvf leptonica-1.82.0.tar.gz
cd leptonica-1.82.0
./configure
make && make install

加入环境变量

vim /etc/profile
在最后插入
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
保存退出后执行下面命令 让配置生效
source /etc/profile

安装Tesseract-OCR，依次执行以下命令完成安装

wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.2.0.tar.gz
重名名下压缩包
mv 5.2.0.tar.gz tesseract-5.2.0.tar.gz
tar -xzvf tesseract-5.2.0.tar.gz 
cd tesseract-5.2.0/
./autogen.sh
./configure
make && make install
sudo ldconfig

复制tess4j要的一些so文件复制到 lib64下。

cp /usr/local/lib/*.so.* /usr/lib64/

检查下是否安装成功
也可以使用下面命令直接进行ocr。查看结果验证程序是否安装完成。

tesseract card.jpg c -l chi_sim

3.第二步执行完毕后。发现调用程序还是报错。甚至会把整个程序宕掉。提示信息如下。将环境变量TESSDATA_PREFIX配置到/etc/profile中刷新配置文件发现并没有作用。

Note: further occurrences of this error will be logged at DEBUG level.
Error opening data file ./chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!

解决办法:在工具类中指定模型文件所在位置。

public class JavaOcrUtil {

    public static String doOcr(String filePath,String language){
        // 执行OCR识别
        File file = new File(filePath);

        Tesseract1 instance = new Tesseract1();
        // 设置语言
        instance.setLanguage(language);
        instance.setDatapath("/usr/tessocr/tesseract-5.2.0/tessdata");
        try {
            String result = instance.doOCR(file);
            return result;
        } catch (TesseractException e) {
            throw new IllegalArgumentException("ocr出错");
        }
    }

    public static void main(String[] args) {
        System.out.println(doOcr("d://test/test.jpg","jpn"));
    }
}