Tesseract OCR体验
1. 下载软件
基础步骤来自于GeeksforGeeks上的一个调用API的教程。
下载Tess4J API, (放个链接)还是在sourceForge上搞下来的[以后平板发东西给PC走邮件好了,还挺方便的]。
下下来是个压缩包,一定要记得存在哪里了…
2.导入jar包
把dist, lib里的jar文件都导入:
ⅠIDEA里
File->Project Structure -> Module-> Dependencies -> “+” ->jar
shift全选导入就可以了
ⅡEclipse
右键build path导入就行了
3.试验
教程里给了代码,先copy跑一下。
import java.io.File;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class Main {
public static void main(String[] args) {
Tesseract tesseract = new Tesseract();
try {
tesseract.setDatapath("F:\\Javapp\\Tess4J\\tessdata");
// the path of your tess data folder
// inside the extracted file
String text
= tesseract.doOCR(new File("F:\\Javapp\\test003.jpg"));
//在Java里插入链接,注意一个\会有转移符号的意思,应该变成/或者是\\。
// path of your image file?0?2
System.out.print(text);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
可以看到导入的都是Java的包,是API自带的,引入的是tessdata的路径,按道理应该做成路径?但这里我不知道和导入jar包有什么区别???[存疑]
整个来说new tesseract 对象,构造字符串,打印,异常处理。
①第一次出了问题,如下报错
原因:应该是没有把新建的project和Tess文件放在一个目录下,找不到包了。
4.跑起来的问题
试验了几张图.因为只下了英文包,都是英文测试(图片也要放在同一个目录下)
这是有中文的,不能识别,英文的效果还行吧。
会有错误,t l,连字符都会出问题,还有格式问题,都不好办。
然后了解到,tesseract是要训练字库的,那我去了解一下百度or腾讯的ocr。