简单介绍
官网如下所示
tesseract-ocr.github.io/
简洁明了,挂在github上的网站。
详细的不再介绍,感兴趣的,可以进入同志网站:https://github.com/tesseract-ocr/tesseract ,观摩学习。
实操准备
要想在开发中使用,还是需要接入对应的API。
对于开发者来说,提供了众多的Wrapper,来实现Api调用。
对于Java一名小开发,来讲,还是使用tess4j,作为Api来使用。官网如下:
tess4j.sourceforge.net/
可以直接下载jar包,或者采用Maven依赖下载。
net.sourceforge.tess4j tess4j 4.5.3复制代码
开发实现
First 创建工程
Second 添加依赖
<?xml version="1.0" encoding="UTF-8"?>4.0.0org.example test-textocr 1.0-SNAPSHOTnet.sourceforge.tess4j tess4j 4.5.3复制代码
Third 填写类文件
package ocr;import net.sourceforge.tess4j.ITesseract;import net.sourceforge.tess4j.Tesseract;import net.sourceforge.tess4j.TesseractException;import javax.imageio.ImageIO;import java.awt.image.BufferedImage;import java.io.IOException;/*** ocr测试.** @author huc_逆天* @since 2021/1/12 17:42*/public class TestTextOcr { public static void main(String[] args) throws IOException { // 创建实例 ITesseract instance = new Tesseract(); // 设置识别语言 instance.setLanguage("chi_sim"); // 设置识别引擎 instance.setOcrEngineMode(1); // 读取文件 BufferedImage image = ImageIO.read(TestTextOcr.class.getResourceAsStream("/2.jpg")); try { // 识别 String result = instance.doOCR(image); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); } }}复制代码
Fifth 添加训练语言环境配置
TESSDATA_PREFIX=F:essdata ,变量名,固定,值为官网下载文件 github.com/tesseract-o…
Sixth 运行
结果如下:
可能识别模式,不是很合适,切换下
instance.setOcrEngineMode(0);复制代码
是不是舒服多了,哈哈。识别率瞬间上涨。
原文链接:https://juejin.cn/post/6917078564663721992