AI文档识别技术之表格识别 (一)

AI文档识别技术之表格识别(一)

文章目录


前言

此文章主要介绍DocumentAI表格识别的V1版本,通过DocumentAI表格识别实现表格检测并实现表格还原结构

  • 表格检测:检测表格在图片中所处的区域
  • 表格还原结构:通过表格图片还原表格的结构信息,主要包括(行数,列数,合并单元格数)

目前DocumentAI表格识别已实现V2版本,大幅提升标准表格的识别准确率,具体信息会在下一篇blog中再具体说明

1. 表格识别原理介绍

1.1 表格类型分类

在现实生活中,表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。

DocumentAI表格识别将表格分为两类,一种为标准表格,另一种为非标准表格:

  • 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割

在这里插入图片描述

标准表格图片

  • 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容,例如下面的表格就缺少很多的横线与竖线

在这里插入图片描述

​ 非标准图片

1.2 识别原理

DocumentAI通过结合AI与传统算法实现表格识别,主要用到的AI能力与算法有:

  • AI:版面分析能力(通过AI版面分析检测表格在图片内所处的区域)
  • AI:OCR能力(通过OCR实现识别表格内容)
  • 算法:图像处理算法(通过结合图像处理算法辅助获取表格结构信息)

通过以上的AI与算法再结合一些表格识别算法即可实现通用表格识别,同时支持识别标准表格与非标准表格

2. 整体识别流程

2.1 流程图

在这里插入图片描述

2.2 图像处理部分大致流程

图像处理的大致流程为:

  1. 对输入的表格图片进行预处理
  2. 通过形态学算法过滤非线条信息
  3. 检测线条与block得到表格的基础信息

3. 将表格转换为html与json格式输出

3.1 html格式

通过输出表格的html格式更方便用户的结果可视化与调试

3.2 json格式

通过json格式更方便的在各语言之间传输表格数据

3.3 表格识别实例

在这里插入图片描述

​ 原图

在这里插入图片描述

​ html展示结果

{

“type”: “table_with_line”, //表格类型

“angle”: 0, //表格倾斜角度

“width”: 572, //表格宽度

“height”: 93, //表格高度

“rows”: 3, //表格行数

“cols”: 3, //表格列数

“position”: [111, 266, 683, 266, 683, 359, 111, 359], //表格位置

“height_of_rows”: [32, 30, 31], //表格每一行的高度

“width_of_cols”: [190, 190, 191], //表格每一列的宽度

“table_cells”: [ //表格内所有单元格的信息

{

“start_row”: 1, //单元格所在开始行号

“end_row”: 1, //单元格所在结束行号

“start_col”: 1, //单元格所在开始列号

“end_col”: 1, //单元格所在结束列号

“text”: “”, //单元格文本内容

“position”: [0, 0, 190, 0, 190, 32, 0, 32], //单元格位置

“lines”: [] //单元格文本行信息

},

…, // 其余单元格

{

“start_row”: 3,

“end_row”: 3,

“start_col”: 3,

“end_col”: 3,

“text”: “23%”,

“position”: [380, 62, 571, 62, 571, 93, 380, 93],

“lines”: [

​ {

​ “text”: “23%”,

​ “score”: 1,

​ “position”: [458, 70, 491, 70, 491, 93, 458, 93]

​ }

]

}

]

}

​ 表格json结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 阿里云龙OCR识别无实线表格是一种可以帮助用户实现对无实线边框表格进行自动识别和提取信息的功能。该功能在图像处理和文字识别方面采用了人工智能技术,具有高准确率和高效性。 首先,阿里云龙OCR识别无实线表格基于深度学习等算法,能够将无实线表格中的文字、数字以及其他需要提取的信息进行准确识别。用户只需将无实线表格的图像传输给系统,系统将通过图像处理将表格分割出来,然后对每个单元格中的文字进行识别。 其次,阿里云龙OCR识别无实线表格能够有效识别不同的字体、字号和颜色,对表格中的文字内容进行准确提取。无论是简单的表格还是复杂的多列多行表格,该功能都能够识别并提取出所需的信息。 此外,用户还可以根据自己的需求进行部分表格或整个表格识别,以及对提取的信息进行二次处理和分析。阿里云龙OCR还具备智能校正功能,可以自动调整表格中文字的倾斜角度,提高识别准确率。 综上所述,阿里云龙OCR识别无实线表格是一款功能强大、准确率高的文字识别工具,为用户提供了一种便捷的方式来处理和分析无实线表格,节省了大量的人工操作和时间成本。 ### 回答2: 阿里云龙OCR识别无实线表格是指该OCR系统能够识别没有实线边框的表格。实线边框是指表格中每个单元格之间有明显的实线分隔,而无实线表格则是指没有这种明显的实线分隔。 阿里云龙OCR识别无实线表格的原理是通过图像处理和机器学习算法。首先,对输入的图像进行预处理,例如去除噪声、调整图像亮度和对比度等操作。接着,使用机器学习算法对图像进行分析,识别表格的边框和内部文本。 识别无实线表格需要考虑的问题是,没有实线边框的表格通常具有不规则的形状和不同的布局。因此,阿里云龙OCR系统会使用一些特殊的算法来检测和分割表格的区域,并将其与其他文本和图像内容区分开来。 此外,阿里云龙OCR还可以处理表格中的多种元素,例如文本、数字、图像和条形码等。它可以从无实线表格中准确提取信息,并转换为可编辑的文本或可导入其他应用程序的数据格式。 总的来说,阿里云龙OCR识别无实线表格的能力提供了更高的灵活性和便利性,使用户能够更方便地处理和分析无实线表格中的数据。无论是在商务、教育还是研究领域,这一技术都能够提高工作效率和准确性,为用户提供更好的使用体验。 ### 回答3: 阿里云龙OCR(Optical Character Recognition)识别技术可以识别无实线表格中的内容。无实线表格指的是没有分割线将表格的各个单元格进行明确分隔的一种形式。对于这种类型的表格,阿里云龙OCR具有以下处理方式: 1. 自动检测表格区域:阿里云龙OCR可以自动检测文档中的表格区域,识别表格的整体范围。即使没有实线的分隔,它也可以通过分析文本排列和空白间隔来确定表格边界。 2. 行列分析与内容提取:阿里云龙OCR可以识别表格内的文本内容,并按照正确的行列顺序将其提取出来。它可以识别表格中每个单元格的内容,并准确地将表格数据提取出来。 3. 结构化数据导出:阿里云龙OCR可以将无实线表格中的数据导出为结构化数据,例如Excel、CSV等格式。这样,用户可以方便地使用导出的数据进行后续处理、分析或导入到其他应用程序中。 需要注意的是,由于无实线表格的分隔线不明确,阿里云龙OCR在处理此类表格时可能会面临一些挑战。对于表格排版复杂、内容较为密集的情况,识别时可能会存在一定的误差。因此,在使用阿里云龙OCR识别无实线表格时,建议用户事先对表格进行一些简单的优化处理,例如增加适当的空白间隔、调整字体大小等,以提高识别效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值