Java提取图片文字 tess4j

最新推荐文章于 2024-08-08 08:31:13 发布

DG_DH168

最新推荐文章于 2024-08-08 08:31:13 发布

阅读量825

点赞数 1

文章标签： java

本文链接：https://blog.csdn.net/qq_35354529/article/details/120745841

版权

1.下载中文语言包

https://tesseract-ocr.github.io/tessdoc/Data-Files
下载 chi_sim.traineddata
在这里插入图片描述

2.maven依赖

 <!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.5.5</version>
        </dependency>

3.测试代码

将第一步下载的chi_sim.traineddata文件复制到D:\50TesseractOCR\tessdata下

提取文字图片：
在这里插入图片描述

    public static void main(String[] args) throws IOException, TesseractException {

        String imagePath="D:\\50TesseractOCR\\20211013153341.png";
        //加载待读取图片
        File imageFile = new File(imagePath);
        if (!imageFile.exists()) {
            System.out.println("找不到图片");
            return ;
        }
        BufferedImage textImage = ImageIO.read(imageFile);
        //创建tess对象
        ITesseract tesseract = new Tesseract();
        //设置训练文件目录
        tesseract.setDatapath("D:\\50TesseractOCR\\tessdata");
        //设置训练语言
        tesseract.setLanguage("chi_sim");
        //执行转换
        String result = tesseract.doOCR(imageFile);

        System.out.println(result);
    }