基于单元格的图片分割方法——表格内容识别

最新推荐文章于 2023-12-25 13:44:37 发布

椒椒。

最新推荐文章于 2023-12-25 13:44:37 发布

阅读量949

点赞数 3

分类专栏：笔记图像处理文章标签：计算机视觉 opencv python

本文链接：https://blog.csdn.net/qq_38978225/article/details/125141741

版权

笔记同时被 2 个专栏收录

100 篇文章 4 订阅

订阅专栏

图像处理

12 篇文章 0 订阅

订阅专栏

（一）单元格图片分割
由于拍摄角度等问题，采集的图像一般都存在一定的斜视畸变，定值单也不例外。另外，如果打印纸张位置不正也会产生变形。因此，在识别图片之前需要将表格从单据中提取出来。这里采用边缘检测的方法来获取表格轮廓的位置，再通过透视转换对变形的单据图片进行矫正。
（１）边缘检测：图像的边缘检测，一般采用算法提取灰度跃变点，这些点连起来的线，就是图像中的灰度跃变线。再通过算法获取图像四周最外侧的跃变线，就是整个图像的最外侧边缘。根据定值单的内容绝大部分都在表格内的特性，判断这些边缘轮廓是否是矩形轮廓，并获取最大矩形轮廓的４个顶点，用来给后续的透视变换做参数。
（２）透视变换：透视变换是三维空间上的非线性变换，直观表现就是在视觉上产生或是消除了距离感。通过边缘检测获得的最大矩形轮廓的４个顶点进行错切变换，获取较为标准的表格。
（３）表格交点提取：通过边缘检测和透视变换获取到的表格图形并不是完全标准的图形，它还是会受到纸张弧度的影响，同时定值单文字密度较大，所以再切割图片时不能用模板的绝对坐标，需根据要识别的图片去重新获取模板相对应的点来切割。这里使用表格交点来匹配模板的点坐标。其主要原理就是先灰度化和二值化去除干扰，再用霍夫线变换探测出图像中的所有横线和纵线，以此提取所有表格的交点。
霍夫变换是检测图形中直线的一种有效方法，在图像分析、物体轮廓提取方面应用广泛，抗噪性好。
表格经过霍夫线变换，获取表格交点的提取效果如图所示。

在这里插入图片描述

（二）字库训练
- 字库是OCR识别的基础，但Tesseract自带的字库并不能满足定值单的识别要求，所以针对单据定制的字库是必须的，在这采用增量训练的方法完善字库。
字库增量训练调用工具JtessboxEdutor进行，训练需要大量的样本作为支撑，样本数量越大，字库识别效果越好。某省电网继电定值保护中的实际应用中，训练字库最终达到了３７８０９字。
(三)结果关联矫正
在ＯＣＲ识别字库中，由于汉字字形、偏旁以及轮廓存在相似性，导致这些相似的汉字难以区分，降低正确识别率。但考虑到继电保护定值单的专业性，常用汉字总数不多，可对其进行专门的字库训练，大大降低误识率，但这仍不能消除识别错误的情况。为此，针对电力定值项各元素的出现位置和赋值都会具有一定的规律，提出了基于上下文的词意与关联性来消除字形识别过程中出现的错误来提高识别率，如下表所示。