springboot 使用Tess4J实现OCR图片文字识别

Jintaeg

已于 2024-01-19 15:55:25 修改

阅读量834

点赞数 9

于 2024-01-19 15:50:23 首次发布

本文链接：https://blog.csdn.net/qq_36311059/article/details/135697916

版权

springboot 使用Tess4J实现OCR图片文字识别

文章目录

springboot 使用Tess4J实现OCR图片文字识别
@[TOC](文章目录)

一、Tess4J介绍
二、使用步骤
1.引入Maven库
2.安装软件
3.下载语言模型
4.示例代码

总结

一、Tess4J介绍

Tesseract是一个开源的光学字符识别（OCR）引擎，它可以将图像中的文字转换为计算机可读的文本。支持多种语言和书面语言，并且可以在命令行中执行。它是一个流行的开源OCR工具，可以在许多不同的操作系统上运行。

Tess4J是一个基于Tesseract OCR引擎的Java接口，可以用来识别图像中的文本，说白了，就是封装了它的API，让Java可以直接调用。

二、使用步骤

1.引入Maven库

   <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>5.3.0</version>
   </dependency>

2.安装软件

比如我这里是下载后放到了F盘的tessdata/tessdata目录下，如图所示，其实就是一个.traineddata为后缀的文件，大小约2M多。
训练数据，官方下载地址：https://digi.bib.uni-mannheim.de/tesseract/
在这里插入图片描述

3.下载语言模型

在这里插入图片描述

4.示例代码

import net.sourceforge.tess4j.Tesseract;
import org.junit.platform.commons.util.StringUtils;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileInputStream;
import java.nio.file.Files;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class TesseractTest {
    public static void main(String[] args) {
        String folderPath = "F:\\stock"; // 文件夹路径
        File folder = new File(folderPath);
        File[] files = folder.listFiles();
        
        for (File file:files) {
            String suffix = file.getName().substring(file.getName().lastIndexOf(".") + 1);
            if (suffix.equals("png")) {
                System.out.println("fileName:"+file.getName());
                Tesseract tesseract = new Tesseract();
                // 指定要读取的语言模型路经
                tesseract.setDatapath("F:\\tessdata\\tessdata");
                // 中文
                tesseract.setLanguage("chi_sim");
                String result = null ;
                try {
                    // 读取图片文件
                    FileInputStream stream = new FileInputStream(file);
                    BufferedImage bufferedImage = ImageIO.read(stream);
                    result = tesseract.doOCR(bufferedImage);
                    System.out.println("result:"+result);
                } catch (Exception e) {
                    System.out.println("ocrResult>>error: "+e.getMessage());
                }
                
            }
        }
    }
}

读取的结果与图片对比。
在这里插入图片描述

在这里插入图片描述

总结

总体使用下来还是可以的，能够应付大多数场景，但是精准度不是很高，需结合业务场景使用，有条件的可以使用阿里、百度、腾讯的ocr识别

Jintaeg

关注

9
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
springboot 使用Tess4J实现OCR图片文字识别

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考Tesseract是一个开源的光学字符识别（OCR）引擎，它可以将图像中的文字转换为计算机可读的文本。支持多种语言和书面语言，并且可以在命令行中执行。它是一个流行的开源OCR工具，可以在许多不同的操作系统上运行。
复制链接

扫一扫