基于OpenCV的表格文本内容提取

最新推荐文章于 2024-04-22 21:35:28 发布

小白学视觉

最新推荐文章于 2024-04-22 21:35:28 发布

阅读量5.1k

点赞数 2

文章标签：算法列表 python java 人工智能

本文链接：https://blog.csdn.net/qq_42722197/article/details/122678061

版权

本文介绍了如何利用OpenCV的霍夫线变换检测表格的水平线和垂直线，通过重叠滤波器去除重叠线条，进而选择ROI并提取表格内的文本。针对一些特殊情况，如颜色对比度导致的误识别，提出了反转图像的方法来提高文本提取的准确性。最终，算法成功地从图像中提取出表格数据。

摘要由CSDN通过智能技术生成

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小伙伴们可能会觉得从图像中提取文本是一件很麻烦的事情，尤其是需要提取大量文本时。PyTesseract是一种光学字符识别（OCR），该库提了供文本图像。

PyTesseract确实有一定的效果，用PyTesseract来检测短文本时，结果相当不错。但是，当我们用它来检测表格中的文本时，算法执行失败。

图1.直接使用PyTesseract检测表中的文本

图1描绘了文本检测结果，绿色框包围了检测到的单词。可以看出算法对于大部分文本都无法检测，尤其是数字。而这些数字却是展示了每日COVID-19病例的相关信息。那么，如何提取这些信息？

简介

在编写算法时，我们通常应该以我们人类理解问题的方式来编写算法。这样，我们可以轻松地将想法转化为算法。

当我们阅读表格时，首先注意到的就是单元格。一个单元格使用边框（线）与另一个单元格分开，边框可以是垂直的也可以是水平的。识别单元格后，我们继续阅读其中的信息。将其转换为算法，您可以将过程分为三个过程，即单元格检测、区域（ROI）选择和文本提取。

在执行每个任务之前，让我们先导入必要内容

import cv2 as cv
import numpy as np
filename = 'filename.png'
img = cv.imread(cv.samples.findFile(filename))
cImage = np.copy(img) #image to draw lines
cv.imshow("image", img) #name the window as "image"
cv.waitKey(0)
cv.destroyWindow("image") #close the window

单元格检测

查找表格中的水平线和垂直线可能是最容易开始的。有多种检测线的方法，这里我们采用OpenCV库中的Hough Line Transform。

在应用霍夫线变换之前，需要进行一些预处理。第一是将存在的RGB图像转换为灰度图像。因为灰度图像对于Canny边缘检测而言非常重要。

gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
cv.imshow("gray", gray)
cv.waitKey(0)
cv.destroyWindow("gray")
canny = cv.Canny(gray, 50, 150)
cv.imshow("canny", canny)
cv.waitKey(0)
cv.destroyWindow("canny")

下面的两幅图分别显示了灰度图像和Canny图像。