验证码识别（Tess4J初体验）_tess4j 识别率底-CSDN博客

本文链接：https://blog.csdn.net/dr_guo/article/details/51340104

遇到一道机试题

当时就懵逼了0.0查了好多资料，大体知道了基本的步骤：1.预处理 2.灰度化 3.二值化 4.去噪 5.分割 6.识别

还好题目要求不严格，可以使用开源程序。机智的我还真找到一个：Tesseract

下面开始正文：

Tess4J官方描述：A Java JNA wrapper for Tesseract OCR API.

1.先去官网下载：http://tess4j.sourceforge.net/（我用的是目前最新版本3.1）

2.将下载的文件解压后把下面几个文件夹（图片中选中的）复制到新建的项目中

3.将lib下的jar包加到build path 中。注意：lib里面除了jar包还有别的。

4.根据官网的样例在刚建的项目中使用一下：

The following code example shows common usage of the library. Make sure tessdata folder are in the search path, and the .jar files are in the classpath.注意在第4步之前确保tessdata 文件夹在项目中，jar包在classpath中。前面的2,3两步已经做了。

package net.sourceforge.tess4j.example;

import java.io.File;
import net.sourceforge.tess4j.*;

public class TesseractExample {

    public static void main(String[] args) {
        File imageFile = new File("eurotext.tif");
        ITesseract instance = new Tesseract();  // JNA Interface Mapping
        // ITesseract instance = new Tesseract1(); // JNA Direct Mapping

        try {
            String result = instance.doOCR(imageFile);
            System.out.println(result);
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

我稍微改了一下，识别指定文件夹下所有验证码

package blog.csdn.net.dr_guo;

import java.io.File;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
/**
 * 验证码识别（图片名即为验证码数字）
 * @author drguo
 *
 */
public class VCR {
	public static void main(String[] args) {
		File root = new File(System.getProperty("user.dir") + "/imgs");
		ITesseract instance = new Tesseract();

		try {
			File[] files = root.listFiles();
			for (File file : files) {
				String result = instance.doOCR(file);
				String fileName = file.toString().substring(file.toString().lastIndexOf("\\")+1);
				System.out.println("图片名：" + fileName +" 识别结果："+result);
			}
		} catch (TesseractException e) {
			System.err.println(e.getMessage());
		}
    }
}

直接运行就行了，但这时可能会报错

Exception in thread "main" java.lang.UnsatisfiedLinkError: Unable to load library 'libtesseract304': Native library (win32-x86-64/libtesseract304.dll) not found in resource path ([file:/G:/Eclipse/Demo/bin/, file:/G:/Eclipse/Demo/lib/commons-beanutils-1.9.2.jar, file:/G:/Eclipse/Demo/lib/commons-io-2.4.jar, file:/G:/Eclipse/Demo/lib/commons-logging-1.2.jar, file:/G:/Eclipse/Demo/lib/ghost4j-1.0.1.jar, file:/G:/Eclipse/Demo/lib/hamcrest-core-1.3.jar, file:/G:/Eclipse/Demo/lib/itext-2.1.7.jar, file:/G:/Eclipse/Demo/lib/jai-imageio-core-1.3.1.jar, file:/G:/Eclipse/Demo/lib/jna-4.2.2.jar, file:/G:/Eclipse/Demo/lib/jul-to-slf4j-1.7.19.jar, file:/G:/Eclipse/Demo/lib/junit-4.12.jar, file:/G:/Eclipse/Demo/lib/lept4j-1.1.2.jar, file:/G:/Eclipse/Demo/lib/log4j-1.2.17.jar, file:/G:/Eclipse/Demo/lib/logback-classic-1.1.6.jar, file:/G:/Eclipse/Demo/lib/logback-core-1.1.6.jar, file:/G:/Eclipse/Demo/lib/rococoa-core-0.5.jar, file:/G:/Eclipse/Demo/lib/slf4j-api-1.7.19.jar, file:/G:/Eclipse/Demo/lib/xmlgraphics-commons-1.5.jar])

注意前面的报错信息，把lib下的win32-x86-64拷到项目中的bin目录下就可以了

准确率还是挺高的。