java - 使用OpenCV + Tesseract识别图片验证码

Tesseract的使用

1、引入tess4j依赖:

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>5.8.0</version>
        </dependency>

2、下载相关语言的训练数据,放到项目指定目录下;下载地址:https://gitcode.net/mirrors/tesseract-ocr/tessdata
比如要识别简体中文,使用chi_sim.traineddata,要识别英文,则使用eng.traineddata。

3、编写代码:

    public static void main(String[] args) throws IOException, TesseractException {
        ITesseract tesseract = new Tesseract();
        //设置语言包地址
        tesseract.setDatapath("./src/main/resources/tessdata");
        //选择语言包
        tesseract.setLanguage("chi_sim");
        BufferedImage bufferedImage = ImageIO.read(new File("C:\\Users\\xxx\\Downloads\\verificationCodePicture101.jfif"));
        System.out.println(tesseract.doOCR(bufferedImage));
    }

识别效果

原图:

chi_sim语言识别结果:心 z
使用eng语言包直接识别不到任何字符。

结论:直接使用默认的语言包识别效果完全无法满足要求,需要进行图像处理,以及考虑自定义模型训练。

借助OpenCV进行图像处理

1、下载、安装OpenCV,下载地址:https://opencv.org/releases/;从安装目录中获取到动态链接库文件,然后放到项目指定目录下。
动态链接库文件路径如下:
在这里插入图片描述
2、引入maven依赖:

        <dependency>
            <groupId>org.openpnp</groupId>
            <artifactId>opencv</artifactId>
            <version>4.7.0-0</version>
        </dependency>

3、编写代码,对图片进行处理,突出字符特征。

package org.sohuerp.utils;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.opencv.core.CvType;
import org.opencv.core.Mat;
import org.opencv.core.MatOfByte;
import org.opencv.core.Rect;
import org.opencv.imgcodecs.Imgcodecs;
import org.opencv.imgproc.Imgproc;

import javax.imageio.ImageIO;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.awt.image.DataBufferByte;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class OcrUtil {


    public static String getVerificationCodeFromPicture(String imgPath) throws TesseractException, IOException {
        //加载dll文件
        String projectPath = System.getProperty("user.dir");
        System.load(projectPath + "/src/main/resources/opencv_java470.dll");

        //加载图片
        Mat srcImg = Imgcodecs.imread(imgPath);
        //裁剪
        srcImg = new Mat(srcImg, new Rect(52, 1, 110, 48));
        //灰度化
        Mat grayImg = new Mat();
        Imgproc.cvtColor(srcImg, grayImg, Imgproc.COLOR_BGR2GRAY);
        //二值化(超过120的设置为255白色,不到120的设置为0黑色)
        Mat binaryImg = new Mat();
        Imgproc.threshold(srcImg, binaryImg, 120, 255, Imgproc.THRESH_BINARY);

        BufferedImage bufferedImage = mat2BufferedImg(binaryImg);
        int h = bufferedImage.getHeight();
        int w = bufferedImage.getWidth();

        //去噪点(如果黑点的上、下、左、右四面,有三面为白色,则将该点改为白色)
        for (int x = 1; x < w - 1; x++) {
            for (int y = 1; y < h - 1; y++) {
                if (isBlack(bufferedImage.getRGB(x, y))) {
                    int n = 0;
                    if (isWhite(bufferedImage.getRGB(x - 1, y))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x + 1, y))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x, y - 1))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x, y + 1))) {
                        n++;
                    }
                    if (n >= 3) {
                        bufferedImage.setRGB(x, y, -1);
                    }
                }
            }
        }
        //从下到上再来一次
        for (int x = 1; x < w - 1; x++) {
            for (int y = h - 2; y > 0; y--) {
                if (isBlack(bufferedImage.getRGB(x, y))) {
                    int n = 0;
                    if (isWhite(bufferedImage.getRGB(x - 1, y))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x + 1, y))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x, y - 1))) {
                        n++;
                    }
                    if (isWhite(bufferedImage.getRGB(x, y + 1))) {
                        n++;
                    }
                    if (n >= 3) {
                        bufferedImage.setRGB(x, y, -1);
                    }
                }
            }
        }

        //去除横向干扰线(宽度不超过3个像素的黑线改为白色)
        for (int x = 0; x < w; x++) {
            List<Point> list = new ArrayList<>();
            for (int y = 0; y < h; y++) {
                if (isBlack(bufferedImage.getRGB(x, y))) {
                    list.add(new Point(x, y));
                } else if (list.size() > 3) {
                    list.clear();
                } else if (!list.isEmpty()) {
                    list.forEach(point -> {
                        bufferedImage.setRGB(point.x, point.y, Color.WHITE.getRGB());
                    });
                    break;
                }
            }
        }

        //断点修复(去干扰线的过程可能导致较细的验证码字符断开,进行一定程度的修复)
        for (int x = 1; x < w - 1; x++) {
            for (int y = 1; y < h - 1; y++) {
                if (isWhite(bufferedImage.getRGB(x, y))
                        && isBlack(bufferedImage.getRGB(x - 1, y))
                        && isBlack(bufferedImage.getRGB(x + 1, y))) {
                    bufferedImage.setRGB(x, y, Color.BLACK.getRGB());
                }
            }
        }

        Mat tempMat = bufferedImg2Mat(bufferedImage);
        Mat resultImg = new Mat();
        Imgproc.threshold(tempMat, resultImg, 120, 255, Imgproc.THRESH_BINARY);
        //保存处理后的图像
        Imgcodecs.imwrite("./src/main/resources/result.jpg", resultImg);

        //开始识别
        ITesseract tesseract = new Tesseract();
        tesseract.setDatapath("./src/main/resources/tessdata");
        BufferedImage input = ImageIO.read(new File("./src/main/resources/result.jpg"));
        tesseract.setLanguage("chi_sim");
        return tesseract.doOCR(input);
    }

    public static BufferedImage mat2BufferedImg(Mat mat) throws IOException {
        MatOfByte matOfByte = new MatOfByte();
        Imgcodecs.imencode(".jpg", mat, matOfByte);
        ByteArrayInputStream inputStream = new ByteArrayInputStream(matOfByte.toArray());
        return ImageIO.read(inputStream);
    }

    public static Mat bufferedImg2Mat(BufferedImage image) {
        Mat mat = new Mat(image.getHeight(), image.getWidth(), CvType.CV_8UC3);
        byte[] pixels = ((DataBufferByte) image.getRaster().getDataBuffer()).getData();
        mat.put(0, 0, pixels);
        return mat;
    }

    public static boolean isBlack(int colorInt) {
        Color color = new Color(colorInt);
        return color.getRed() + color.getGreen() + color.getBlue() < 300;
    }

    public static boolean isWhite(int colorInt) {
        Color color = new Color(colorInt);
        return color.getRed() + color.getGreen() + color.getBlue() >= 300;
    }

    public static void main(String[] args) throws TesseractException, IOException {
        String imgPath = "C:\\Users\\xxx\\Downloads\\verificationCodePicture73.jfif";
        System.out.println(getVerificationCodeFromPicture(imgPath));
    }
}

识别效果

原图1:
在这里插入图片描述
处理结果:
在这里插入图片描述
chi_sim语言包识别结果:ZOtU,eng语言包识别结果:Zotu

原图2:
在这里插入图片描述
处理结果:
在这里插入图片描述
chi_sim语言包识别结果:小 4Q,eng语言包识别结果:4cqe

结论:经过处理后的验证码图片,字符特征比较明显,但是使用默认的语言包,识别的准确率仍然不高,需要使用处理后的图片进行训练,生成专用的训练数据,提高识别准确率。

Tesseract自定义模型训练

1、下载并安装Tesseract,下载地址:https://digi.bib.uni-mannheim.de/tesseract/,本文使用tesseract-ocr-w64-setup-5.3.1.20230401.exe版本;使用安装目录设置环境变量,如:D:\Tesseract。

2、下载jTessBoxEditor,下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/,将下载后的压缩包解压,双击jTessBoxEditorFX.jar即可运行。

3、准备一定数量的待训练样本图片,在图片所在目录下进入命令行窗口,按以下步骤生产训练数据:

1)打开jTessBoxEditorFX,点击Tools->Merge TIFF选项,批量选择要合并的样本图片,点击"打开",如图:
在这里插入图片描述
然后输入要保存的tif文件名"vc.sim.exp0",进行保存。vc表示语言包名,等价于chi_sim、eng,可随意取,sim表示字体名,可随意取。
如图:
在这里插入图片描述

2)执行命令:tesseract vc.sim.exp0.tif vc.sim.exp0 --psm 7 batch.nochop makebox
目录下会生成与tif图片关联的box文件"vc.sim.exp0.box",

使用tesseract --help-psm命令,可查看–psm参数含义:
Page segmentation modes:
0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR. (not implemented)
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
8 Treat the image as a single word.
9 Treat the image as a single word in a circle.
10 Treat the image as a single character.
11 Sparse text. Find as much text as possible in no particular order.
12 Sparse text with OSD.
13 Raw line. Treat the image as a single text line,
bypassing hacks that are Tesseract-specific.

3)使用jTessBoxEditorFX,点击"Box Editor",打开合并后的tif文件,即可编辑与之关联的box文件,对每一页的识别结果进行校对,如下图:
在这里插入图片描述
此过程是一个手动重复且耗时的过程。

4)执行命令:tesseract vc.sim.exp0.tif vc.sim.exp0 --psm 7 nobatch box.train,生成.tr文件。

5)执行命令:echo "sim 0 0 0 0 0">font_properties,生成font_properties文件(注意去掉文件内容中的双引号)。

6)执行命令:unicharset_extractor vc.sim.exp0.box,生成unicharset文件。

7)执行命令:shapeclustering -F font_properties -U unicharset -O vc.unicharset vc.sim.exp0.tr

8)执行命令:mftraining -F font_properties -U unicharset -O vc.unicharset vc.sim.exp0.tr

9)执行命令:cntraining vc.sim.exp0.tr

10)重命名以上过程中生成的四个文件,前缀使用自定义的语言名vc,分别执行:rename normproto vc.normprotorename inttemp vc.inttemprename pffmtable vc.pffmtablerename shapetable vc.shapetable

11)执行命令:combine_tessdata vc.,生成最终的 vc.traineddata 训练数据。

识别效果

可以将训练数据vc.traineddata放到Tesseract安装目录的tessdata文件夹下,方便使用命令行调试,命令如下:

tesseract result101.jpg output --psm 7 -l vc

结果将输出到 output.txt文件中。

将vc.traineddata放到java项目中,取代之前的chi_sim和eng,识别效果如下:
原图:
在这里插入图片描述在这里插入图片描述
识别结果:4c4e、2qnh,识别准确率提升明显。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
文件为压缩包,包括多个java识别图片文字的项目,国内网站上资料比较少,项目都整理出了测试类及说明,都包含着源代码及jar包、安装包、训练库。希望用得到的人少走弯路,资源都精心整理测试过,高分是必须的。 javaocr项目 纯java程序,国内网站几乎没有见到相关资料。 此项目提供了图形界面的测试类: net.sourceforge.javaocr.main.java javaocr2项目 与以上javaorc属同一项目的不同分支,纯java实现,以下3个测试类请参考。 个人对此项目感觉不错,虽然存在些问题,但是只要训练库好,英文和数字识别率很高。 我用此项目把某网站的数字验证码都截了图做成了训练库,识别率95%以上,用browserTest简单实现了程序自动登录与各种操作功能。 测试类: TestDemo.java MyDemo.java MyDemo2.java Longan-master项目 此项目也是纯java实现,识别英文和数字效果还不错,国内网站几乎没有任何相关资料。 测试类: com.zarkonnen.longan.Main 使用开发工具,请设置程序输入参数为:-o c:/111.txt c:/entest.png 代表输出文件和识别图片 Java_imagetotext项目 安装tesseract-ocr-setup-3.02.02.exe文件,通过java调用tesseract.exe文件识别图片,输出识别结果 测试类: com.chillyfacts.com.my_main.java 根据实际情况修改输入图片、输出文件名、tesseract.exe文件所在路径 Tess4J-3.4.7项目 知名度最大的java识别程序了。 我的环境是windows7 64位 jdk1.8 64位 各种折腾,痛苦的尝试了各版本,基本都是报模块加载失败,安装上vc_redist.x64_2015.exe后执行成功,但是在xp32位还是没有成功。 测试类: TesseractExample.java 测试英文识别 ChOcr.java 测试中文识别 tesseract3.03项目 测试类: de.vorb.tesseract.example.BasicExample 需要加载libtesseract303.dll 运行后一直报异常,没有搞定,也不打算深究了,遗憾!有人成功了,请分享为谢。
好的,我可以帮助您用 Java 使用 OpenCVTesseract 识别验证码文字并标注文字坐标。 首先,您需要安装 OpenCVTesseractJava 绑定,并将它们添加到您的项目中。然后,您可以使用 OpenCV 读入图像并使用 Tesseract 识别文字。 下面是一个基本的示例代码,它可以帮助您开始使用 OpenCVTesseract 进行文字识别: ``` import org.opencv.core.Core; import org.opencv.core.Mat; import org.opencv.core.MatOfRect; import org.opencv.core.Point; import org.opencv.core.Rect; import org.opencv.core.Scalar; import org.opencv.imgcodecs.Imgcodecs; import org.opencv.imgproc.Imgproc; import org.opencv.objdetect.CascadeClassifier; import com.google.common.io.Files; import net.sourceforge.tess4j.ITesseract; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import java.io.File; import java.io.IOException; public class TextRecognition { public static void main(String[] args) throws IOException, TesseractException { // Load the OpenCV library System.loadLibrary(Core.NATIVE_LIBRARY_NAME); // Load the image file Mat image = Imgcodecs.imread("captcha.png"); // Convert the image to grayscale Mat imageGray = new Mat(); Imgproc.cvtColor(image, imageGray, Imgproc.COLOR_BGR2GRAY); // Use a cascade classifier to detect the characters in the image CascadeClassifier classifier = new CascadeClassifier("char_classifier.xml"); MatOfRect characterRegions = new MatOfRect(); classifier.detectMultiScale(imageGray, characterRegions); // Loop through the character regions and recognize the text in each region ITesseract tesseract = new Tesseract(); tesseract.setLanguage("eng"); for (Rect rect : characterRegions.toArray()) { // Crop the character region from the image Mat characterRegion = new Mat(imageGray, rect); // Perform OTSU thresholding on the character region Mat characterRegionThreshold = new Mat(); Imgproc.th

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值