java图像识别

Java图像识别：Tesseract-OCR在工商图片文字提取中的应用

最新推荐文章于 2025-08-21 14:08:26 发布

原创

最新推荐文章于 2025-08-21 14:08:26 发布 · 1.5w 阅读

79 ·

CC 4.0 BY-SA版权

文章标签：

#java图像识别

本文讲述了作者在软件杯项目中使用Java进行工商图片文字提取的实践，重点介绍了如何利用Tesseract-OCR和tess4j框架处理图像，包括预处理、词库训练以提高识别速度和准确率。通过分享经验，强调了程序员需要掌握AI和大数据技术的重要性。

今年软件杯有一个项目是工商图片文字提取。大致的要求就是将天猫给的50张样例图片中的企业名称和注册号提取出来。速度和准确率是这个项目的关键。
我觉得软件杯历年的项目都挺有难度的，很有挑战性。近几年由于人工智能和大数据的飞速发展，项目命题也偏向这方面而不是传统项目了。所以对于程序员来说，除了了解传统项目知识（比如java web三大框架），还要与时俱进，自主学习大数据和人工智能的前沿知识，我认为现在及时转型对个人发展是非常重要的。这可能决定未来的走向，因为在不远的将来，AI和大数据将是主流。
工商图片文字提取涉及到计算机视觉处理，也就是图像识别。本来是想用python写的，会方便点，但是那时候看项目的语言要求，好像不能使用python，只能用java写咯。java图像处理这方面还真不如python。由于底层涉及太多的像素处理等等，我用的是Tesseract-OCR,tess4j这个谷歌的开源框架，识别文字挺好的。能识别一些常用的文字，底层代码都是C++写的，然后用java封装起来，写好方法供上层调用。
这个框架自行百度下载然后配置好就ok了，下面看看我的maven项目结构。

有个特别重要的是tessdata文件夹中要放一些词库，比如英文词库eng.traineddata，中文词库chi_sim.traineddata（要自行下载）等等。如果你想提高这套框架识别的速度和准确率的话，可以去训练对应词库，然后加入到tessdata文件夹下，这样对特定的文字群将会有更好的识别效果。以前是接近0.9秒一张，训练词库以后可以达到0.1秒左右。
另外在识别图片之前，还需要对一些难点图片进行特殊处理，比如翻转，放大缩小，去水印（二值化），灰度处理，图片截取等等，这样预处理对后面的识别有很大的帮助。
总代码：

package Test;

import com.recognition.software.jdeskew.ImageDeskew;
import net.sourceforge.tess4j.ITessAPI;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Word;
import net.sourceforge.tess4j.util.ImageHelper;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.util.Date;
import java.util.List;

    public class Test {
    static final double MINIMUM_DESKEW_THRESHOLD = 0.05d;
    static ITesseract instance;
    public static void main(String[] args) throws Exception{
        Date data1=new Date();
          //testEn();
         testZh();
        //Wordbyword_extraction();
        Date data2=new Date();
        System.out.println((data2.getTime()-data1.getTime())/1000);
    }

    //使用英文字库 - 识别图片
    public static void testEn() throws

最低0.47元/天解锁文章