最近有一个功能需要实现:利用图片将图片里的文字提取出来,然后生成文本。
查阅了相关资料,决定利用tessreact 引擎技术去实现。下载该软件需要配置环境变量,通过环境变量在dos命令下进行相关图片文字解析操作,为了使程序更加简单,采用tess4j包去实现。
步骤一:
下载包(此处我采用后者):阿里云maven仓库 或者 创建maven项目在pom.xml中配置
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.2.1</version>
</dependency>
步骤二:
下载中文包(地址推荐):https://github.com/tesseract-ocr/tessdata 选择chi_sim.traineddata文件进行下载
步骤三:
将下载的chi_sim.traineddata放入包tess4j包的tessdata目录下
接下来我们测试效果:
package ocr;
import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class App
{
public static void main( String[] args )
{
File imageFile = new File("F:\\开发资料\\项目工具包\\ocr10.jpg");
ITesseract instance = new Tesseract(); // JNA Interface Mapping
/*
如果采用的不是使用包默认的testdata建议加上一下一行代码:
instance.setDatapath("D:\\myworks\\BusinessManager\\WebRoot\\tessdata");
*/
// ITesseract instance = new Tesseract1(); // JNA Direct Mapp
instance.setLanguage("chi_sim");//添加中文字库
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
需要处理的图片:
效果:
使用tess4j的建议:经过我的测试,tess4j宋体的识别率会高很多,别的字体的识别率不是很乐观,并且图片中尽量做到字体无特殊符号的干扰,识别才会更准确。(图片文字识别要求不用过于严格,机器的识别按目前技术的发展达不到100%的识别率。)