Java Maven Tomcat使用Tesseract-OCR文字识别(Tess4j)

本文链接：https://blog.csdn.net/qq_38650613/article/details/125448250

本文讲述了作者在将Tesseract-OCR部署到Tomcat后遇到的内存异常问题，通过分析发现是由于OCR配置文件路径问题。博主分享了从本地测试到部署优化的解决方案，包括设置正确路径和推荐将tessdata文件放置在公共目录以避免版本管理和协同开发中的困扰。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于项目中需要用到简单的图片识别技术，所以就选择了开源的Tesseract-OCR。可是本地在使用官网demo能正常运行，但是部署到tomcat后，就报java.lang.Error: Invalid memory access异常。

尝试百度后，并没有搜到相关记载。在苦思冥想后，总算被我想到一个解决方案。前面5步是调用官网demo的用例，如果你也遇到相同的tomcat部署后异常问题，请从第6步浏览；

1.下载源码包

tess4j源码包:https://sourceforge.net/projects/tess4j/
中文库地址：https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
其他语言包地址：https://github.com/tesseract-ocr/tessdata
tess4j源码包（百度网盘地址）：

链接：https://pan.baidu.com/s/1OZa45g0gZ95iYgPb_nUGvw?pwd=juiz

提取码：juiz

2.用idea打开源码包

3.导入dist目录和lib目录的jar包

4.编写测试用例调用OCR

package net.sourceforge.tess4j;

import java.io.File;

public class Test {
    public static void main(String[] args) throws TesseractException {
        long startTime = System.currentTimeMillis();
        File imgDir = new File("C:\Users\YX001\Desktop\tess4j\201909111625565.png");

        ITesseract instance = new Tesseract();
        instance.setLanguage("eng"); //选择语言
        String ocrResult = instance.doOCR(imgDir);
        // 输出识别结果
        System.out.println("OCR Result: \n" + ocrResult + "\n 耗时：" + (System.currentTimeMillis() - startTime) + "ms");
    }
}

5.运行结果

官网demo没问题后，我们开始将Tess4j引入到maven项目里

6.配置pom.xml文件

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>3.4.8</version>
        </dependency>

注意：可能会造成jar包冲突，只需要把pom文件里的注释掉就好。我这里是造成slf4j冲突