# Java项目＜一＞tesseract ocr

最新推荐文章于 2024-04-19 14:13:29 发布

米格15

最新推荐文章于 2024-04-19 14:13:29 发布

阅读量314

点赞数

分类专栏： java 文章标签： java jar ocr

本文链接：https://blog.csdn.net/Zeadar9/article/details/110400716

版权

java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Tesseract OCR体验

1. 下载软件

基础步骤来自于GeeksforGeeks上的一个调用API的教程。
下载Tess4J API, (放个链接)还是在sourceForge上搞下来的[以后平板发东西给PC走邮件好了,还挺方便的]。
下下来是个压缩包,一定要记得存在哪里了…

2.导入jar包

把dist, lib里的jar文件都导入:

ⅠIDEA里

File->Project Structure -> Module-> Dependencies -> “+” ->jar
shift全选导入就可以了

ⅡEclipse

右键build path导入就行了

3.试验

教程里给了代码,先copy跑一下。

import java.io.File;

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Main {
    public static void main(String[] args) {
        Tesseract tesseract = new Tesseract();
        try {

            tesseract.setDatapath("F:\\Javapp\\Tess4J\\tessdata");

            // the path of your tess data folder
            // inside the extracted file
            String text
                    = tesseract.doOCR(new File("F:\\Javapp\\test003.jpg"));
//在Java里插入链接,注意一个\会有转移符号的意思,应该变成/或者是\\。
            // path of your image file?0?2
            System.out.print(text);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

可以看到导入的都是Java的包,是API自带的,引入的是tessdata的路径,按道理应该做成路径?但这里我不知道和导入jar包有什么区别???[存疑]
整个来说new tesseract 对象,构造字符串,打印,异常处理。

①第一次出了问题,如下报错
原因:应该是没有把新建的project和Tess文件放在一个目录下,找不到包了。
在这里插入图片描述

4.跑起来的问题

试验了几张图.因为只下了英文包,都是英文测试(图片也要放在同一个目录下)
在这里插入图片描述

这是有中文的,不能识别,英文的效果还行吧。

会有错误,t l,连字符都会出问题,还有格式问题,都不好办。
然后了解到,tesseract是要训练字库的,那我去了解一下百度or腾讯的ocr。

米格15

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
# Java项目＜一＞tesseract ocr

Tesseract OCR体验1. 下载软件基础步骤来自于GeeksforGeeks上的一个调用API的教程。下载Tess4J API, (放个链接)还是在sourceForge上搞下来的[以后平板发东西给PC走邮件好了,还挺方便的]。下下来是个压缩包,一定要记得存在哪里了…2.导入jar包把dist, lib里的jar文件都导入:ⅠIDEA里File->Project Structure -> Module-> Dependencies -> “+” ->ja
复制链接

扫一扫