使用opencv+tesseract识别图片中的表格

原创

已于 2024-06-18 19:58:11 修改 · 3.1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#opencv #ocr #java #spring boot

于 2023-12-25 13:44:37 首次发布

本文详细介绍了在Java环境中，如何通过OpenCV和Tesseract库处理图像表格，包括图像预处理、识别水平和垂直线、过滤重叠线、构建单元格以及单元格文本识别的过程，同时提及了Docker部署SpringBoot服务的背景。

描述

在java环境中使用opencv和tesserac识别一个图片表格

环境：opencv和tesseract安装在linux环境下，docker将运行springboot服务

opencv和tesseract的安装和docker加载可参考之前的文章

过程

将图片进行预处理，过滤掉颜色等干扰元素

提取图片的水平线和垂直线，并进行重叠过滤

得到水平线和垂直线的交点，根据交点构建单元格

对每个单元格进行识别

1.转换

将image转换成mat

private  Mat bufferedImageToMat(BufferedImage bufferedImage) {
      Mat mat = new Mat();
      try {
            // Convert BufferedImage to byte array
            ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
         
            ImageIO.write(bufferedImage, "png", byteArrayOutputStream);
      
            byteArrayOutputStream.flush();

            byte[] imageInByte = byteArrayOutputStream.toByteArray();

            byteArrayOutputStream.close();

            // Convert byte array to Mat
            MatOfByte matOfByte = new MatOfByte(imageInByte);

            mat = Imgcodecs.imdecode(matOfByte, Imgcodecs.IMREAD_UNCHANGED);
  
        } catch (IOException e) {
            e.printStackTrace();
        }
    return mat;
}

2.图片预处理

原图：

将图片灰度化，并进行边缘检测

灰度化

 //image为加载的图片
 Mat imread = bufferedImageToMat(image);
 Mat gray = new Mat();
 Imgproc.cvtColor(imread, gray,Imgproc.COLOR_BGR2GRAY);

边缘检测

最低0.47元/天解锁文章