java图片文字识别tesseract-ocr

最新推荐文章于 2024-04-13 11:29:12 发布

_lrs

最新推荐文章于 2024-04-13 11:29:12 发布

阅读量804

点赞数 1

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/RenshenLi/article/details/119140568

版权

java 专栏收录该内容

40 篇文章 5 订阅

订阅专栏

一、安装

https://github.com/tesseract-ocr/tesseract

下载安装包：tesseract-ocr-setup-4.00.00dev.exe

下载语言包： chi_sim.traineddata,eng.traineddata

在这里插入图片描述

二、配置

（1）配置环境变量 TESSDATA_PREFIX=D:\tools\Tesseract-OCR\tessdata
在这里插入图片描述
（2）配置环境变量：path中添加 D:\tools\Tesseract-OCR

（2）将语言包放在安装目录 D:\tools\Tesseract-OCR\tessdata

在这里插入图片描述

二、测试

测试图片如下：
请添加图片描述

1. 命令行测试

再图片目录下，打开cmd窗口

tesseract test.jpg test -l chi_sim

如果翻译英文，则执行命令：

tesseract test.jpg test -l eng

结果：生成test.txt
在这里插入图片描述

在这里插入图片描述

2. 代码测试

引入依赖

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

public static void main(String[] args) {
        String imagePath = "C:\\Users\\x\\Desktop\\img\\test.jpg";
        try {
            BufferedImage textImage = ImageIO.read(new File(imagePath));
            Tesseract instance = new Tesseract();
            //设置语言包路径
            instance.setDatapath("D:\\tools\\Tesseract-OCR\\tessdata");//设置训练库
            //设置中文识别
            instance.setLanguage("chi_sim");
            String result = instance.doOCR(textImage);
            System.out.println(result);
        } catch (Exception e) {
        }
    }

结果：
在这里插入图片描述

_lrs

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
java图片文字识别tesseract-ocr

目录前言一、安装二、配置二、测试1 命令行测试2 代码测试总结前言。一、安装https://github.com/tesseract-ocr/tesseract下载安装包：tesseract-ocr-setup-4.00.00dev.exe下载语言包： chi_sim.traineddata,eng.traineddata二、配置（1）配置环境变量 TESSDATA_PREFIX=D:\tools\Tesseract-OCR\tessdata（2）配置环境变量：path中添加..
复制链接

扫一扫