# Java项目<一>tesseract ocr

Tesseract OCR体验

1. 下载软件

基础步骤来自于GeeksforGeeks上的一个调用API的教程。
下载Tess4J API, (放个链接)还是在sourceForge上搞下来的[以后平板发东西给PC走邮件好了,还挺方便的]。
下下来是个压缩包,一定要记得存在哪里了…

2.导入jar包

把dist, lib里的jar文件都导入:

ⅠIDEA里

File->Project Structure -> Module-> Dependencies -> “+” ->jar
shift全选导入就可以了

ⅡEclipse

右键build path导入就行了

3.试验

教程里给了代码,先copy跑一下。

import java.io.File;

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Main {
    public static void main(String[] args) {
        Tesseract tesseract = new Tesseract();
        try {

            tesseract.setDatapath("F:\\Javapp\\Tess4J\\tessdata");

            // the path of your tess data folder
            // inside the extracted file
            String text
                    = tesseract.doOCR(new File("F:\\Javapp\\test003.jpg"));
//在Java里插入链接,注意一个\会有转移符号的意思,应该变成/或者是\\。
            // path of your image file?0?2
            System.out.print(text);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

可以看到导入的都是Java的包,是API自带的,引入的是tessdata的路径,按道理应该做成路径?但这里我不知道和导入jar包有什么区别???[存疑]
整个来说new tesseract 对象,构造字符串,打印,异常处理。

①第一次出了问题,如下报错
原因:应该是没有把新建的project和Tess文件放在一个目录下,找不到包了。
在这里插入图片描述

4.跑起来的问题

试验了几张图.因为只下了英文包,都是英文测试(图片也要放在同一个目录下)
在这里插入图片描述
在这里插入图片描述
这是有中文的,不能识别,英文的效果还行吧。
在这里插入图片描述
在这里插入图片描述
会有错误,t l,连字符都会出问题,还有格式问题,都不好办。
然后了解到,tesseract是要训练字库的,那我去了解一下百度or腾讯的ocr。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值