Tesseract-ocr图片文字识别

1.下载安装tesseract-ocr-setup-4.00.00dev.exe

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2.下载简体中文语言包chi_sim.traineddata

https://github.com/tesseract-ocr/tessdata/find/master

3.图片二值化处理

package com.daorigin.AI.ocr;

import java.awt.image.BufferedImage;
import java.awt.image.ConvolveOp;
import java.awt.image.Kernel;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import javax.imageio.ImageIO;

public class ImgSharper{
	
	public static void main(String[] args){
		try {
//			getSharperPicture("E://民事起诉状.JPG","E://民事起诉状2.JPG","jpg");
//			binaryImage("E://民事起诉状.JPG","E://民事起诉状1.JPG","jpg");
			binaryImage("E://民事起诉状2.JPG","E://民事起诉状3.JPG","jpg");
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	
	/**
	 *  图片锐化
	 * @param originalPic
	 * @return
	 * @throws IOException 
	 * @throws FileNotFoundException 
	 */
	public static void getSharperPicture(String in,String out,String type) throws FileNotFoundException, IOException{  
		BufferedImage originalPic = ImageIO.read(new FileInputStream(in));
		int imageWidth = originalPic.getWidth();  
        int imageHeight = originalPic.getHeight();  
  
//        BufferedImage newPic = new BufferedImage(imageWidth, imageHeight,  
//                BufferedImage.TYPE_3BYTE_BGR);  
        BufferedImage newPic = new BufferedImage(imageWidth, imageHeight,  
                BufferedImage.TYPE_3BYTE_BGR);  
//        float[] data =  
//        { -1.0f, -1.0f, -1.0f, -1.0f, 10.0f, -1.0f, -1.0f, -1.0f, -1.0f };  
        float[] data = { 
		        -1.0f, -1.0f, -1.0f,
		        -1.0f, 9.0f, -1.0f,
		        -1.0f, -1.0f, -1.0f 
		};
  
        Kernel kernel = new Kernel(3, 3, data);  
        ConvolveOp co = new ConvolveOp(kernel, ConvolveOp.EDGE_NO_OP, null);  
        co.filter(originalPic, newPic);  
        ImageIO.write(newPic, type, new File(out));
    } 
	
	/**
	 * 二值化
	 * @throws IOException
	 */
	public static void binaryImage(String in,String out,String type) throws IOException{
		BufferedImage image = ImageIO.read(new FileInputStream(in));;
		
		int width = image.getWidth();
		int height = image.getHeight();
		
		BufferedImage grayImage = new BufferedImage(width, height, BufferedImage.TYPE_BYTE_BINARY);//重点,技巧在这个参数BufferedImage.TYPE_BYTE_BINARY
		for(int i= 0 ; i < width ; i++){
		    for(int j = 0 ; j < height; j++){
			int rgb = image.getRGB(i, j);
			grayImage.setRGB(i, j, rgb);
		    }
		}
		ImageIO.write(grayImage, type, new File(out));
	}
}


4.程序调用

package com.daorigin.AI.ocr;

import java.io.BufferedReader;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

import org.jdesktop.swingx.util.OS;

public class OCRHelper {
	private final String LANG_OPTION = "-l";
	private final String EOL = System.getProperty("line.separator");
	/**
	 * 文件位置我防止在,项目同一路径
	 */
	private String tessPath = new File("C:\\Program Files (x86)\\Tesseract-OCR").getAbsolutePath();

	/**
	 * @param imageFile
	 *            传入的图像文件
	 * @param imageFormat
	 *            传入的图像格式
	 * @return 识别后的字符串
	 */
	public String recognizeText(File imageFile) throws Exception {
		/**
		 * 设置输出文件的保存的文件目录
		 */
		File outputFile = new File(imageFile.getParentFile(), "output");

		StringBuffer strB = new StringBuffer();
		List<String> cmd = new ArrayList<String>();
		if (OS.isWindowsXP()) {
			cmd.add(tessPath + "\\tesseract");
		} else if (OS.isLinux()) {
			cmd.add("tesseract");
		} else {
			cmd.add(tessPath + "\\tesseract");
		}
		cmd.add("");
		cmd.add(outputFile.getName());
		cmd.add(LANG_OPTION);
		cmd.add("chi_sim");
		// cmd.add("eng");

		ProcessBuilder pb = new ProcessBuilder();
		/**
		 * Sets this process builder's working directory.
		 */
		pb.directory(imageFile.getParentFile());
		cmd.set(1, imageFile.getName());
		pb.command(cmd);
		pb.redirectErrorStream(true);
		Process process = pb.start();
		// tesseract.exe 1.jpg 1 -l chi_sim
		// Runtime.getRuntime().exec("tesseract.exe 1.jpg 1 -l chi_sim");
		/**
		 * the exit value of the process. By convention, 0 indicates normal
		 * termination.
		 */
		// System.out.println(cmd.toString());
		int w = process.waitFor();
		if (w == 0)// 0代表正常退出
		{
			BufferedReader in = new BufferedReader(
					new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath() + ".txt"), "UTF-8"));
			String str;

			while ((str = in.readLine()) != null) {
				strB.append(str).append(EOL);
			}
			in.close();
		} else {
			String msg;
			switch (w) {
			case 1:
				msg = "Errors accessing files. There may be spaces in your image's filename.";
				break;
			case 29:
				msg = "Cannot recognize the image or its selected region.";
				break;
			case 31:
				msg = "Unsupported image format.";
				break;
			default:
				msg = "Errors occurred.";
			}
			throw new RuntimeException(msg);
		}
		new File(outputFile.getAbsolutePath() + ".txt").delete();
		return strB.toString().replaceAll("\\s*", "");
	}
}
package com.daorigin.AI.ocr;

import java.io.File;

public class Test {
	public static void main(String[] args) {
		try {
			ImgSharper is = new ImgSharper();
			is.binaryImage("E:/民事起诉状第二页.JPG", "E:/民事起诉状第二页0.JPG", "jpg");
			File file = new File("E:/民事起诉状第二页0.JPG");
			String recognizeText = new OCRHelper().recognizeText(file);
			System.out.println(recognizeText + "\t");

		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}


基本经过二值化和锐化处理的图片,分辨准确率可以达到95%以上。

 

 

 

 

 

### 回答1: Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以将图片中的文字转换为可编辑的文本。它最早由惠普实验室开发并于2005年移交给Google维护。 Tesseract-OCR基于机器学习算法,能够从图像中准确地识别出文字。它支持多种语言,包括中文,而且能够适应各种场景,如印刷品、手写文字、图片中的文字等等。 使用Tesseract-OCR库的过程相对简单。首先,需要将待识别的图片转换为适合Tesseract-OCR处理的格式,如TIFF或PNG。然后,调用Tesseract-OCR库的API,将图片作为参数传递给库,即可得到识别结果。 Tesseract-OCR识别库具有以下几个优点。首先,它是一个开源项目,这意味着任何人都可以查看、修改和提升其代码,使其更适应不同的需求。其次,它训练有素,可以提供高准确率的文字识别结果。此外,Tesseract-OCR库还可以通过训练自定义字体来提高特定字体的识别准确率,这一点对于需要处理特定类型文字的应用非常有用。 然而,Tesseract-OCR库也存在一些局限性。首先,它对于复杂图形或低分辨率的图片的识别效果较差。其次,虽然Tesseract-OCR支持中文识别,但对于一些特殊的中文字符或排版形式可能出现辨识错误的情况。 综上所述,Tesseract-OCR是一个功能强大的OCR识别库,适用于各种场景的文字识别需求。无论是从印刷品、手写文字还是图片中提取文字,Tesseract-OCR都能够提供准确的识别结果,并且其开源性质和可定制化的特点为用户提供了更大的自由度。 ### 回答2: Tesseract-OCR识别库是一个开源的光学字符识别(OCR)工具,由HP实验室开发,现由Google维护。它能够将印刷体或手写体的文字转换为计算机可识别的文本。 Tesseract-OCR识别库支持多种语言和平台,并且是一个高度准确的OCR引擎。它具有丰富的功能,包括自动文本分区、文本对齐和格式化、自动旋转图像等。此外,它还可以识别多个字体、文字大小和颜色的文本。 Tesseract-OCR识别库的使用也非常简单。它可以通过API或命令行界面进行调用和集成,还提供了生成HTML、PDF等格式文件的功能。用户可以通过调整参数来优化识别结果,如设置语言、字体和识别区域等。 Tesseract-OCR识别库在各种应用中得到广泛应用。它可以用于数字化文档、扫描文档、文本识别和自动化处理等方面。通过将纸质文档转换为可编辑的文本文件,可以提高办公效率和搜索能力,并方便文档的归档和分享。 总的来说,Tesseract-OCR识别库是一个强大且易于使用的工具,能够准确地将印刷体或手写体的文字转换为计算机可识别的文本。它的广泛应用范围使它成为数字化时代的重要工具之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值