表格的结构识别综述

目前正在作的内容,属于现状调研阶段。

目录

ICDAR2019竞赛

ICDAR2021竞赛


ICDAR2019竞赛

icdar 2021有这方面的比赛,贴几个论文:

Table Structure Recognition using Top-Down.pdf

Global Table Extractor (GTE)-号称打败下面.pdf

Robust table recognition for printed document images.txt

ReS2TIM Reconstruct Syntactic Structures from Table Images-19ICDAR-13F1=74.txt

Table Structure Extraction with Bi-directional-19ICDAR-13f1=93.pdf

TableNet Deep Learning model for end-to-end-19ICDAR-13F1=91.pdf

ICDAR_Table_Str_Det-19.pdf

Rethinking Table Recognition using-19-ICDAR.pdf

后缀是19的,表示 19年icdar的会议论文。其中 我主要看了最上面的两篇文章。再贴几个数据集 连接:

TableBank Dataset

IBM Developer

SciTSR dataset  (这个数据集是在谷歌云上,最好能翻墙,才能下载。)

暂时写到这,后面有感悟,再写。

**************************************************************************************************************

ICDAR2021竞赛

2022.07.08

表格方面的综述2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析_郑建宇Jy的博客-CSDN博客

**************************************************************************************************************

2022.09.14

另一篇表格识别综述,看起来讲的更好一点。

表格识别技术综述_CharlesWu123的博客-CSDN博客

**************************************************************************************************************

下面都是比较新的并且在公开数据集PubTabnet数据集上有良好表现。

干货丨小米表格识别技术揭秘

Table master训练测试流程_CV-deeplearning的博客-CSDN博客.

PaddleOCR/PP-Structurev2_introduction.md at dygraph · PaddlePaddle/PaddleOCR · GitHub

 **************************************************************************************************************

表格结构识别的方案梳理:

1. 基于传统算法提取表格线,再由表格线推导行、列、合并单元格的信息;

2. 基于目标检测,检测出单元格,再用后处理方法组织单元格还原表格结构;

3. 基于语义分割,分割出表格线,然后对分割结果进行后处理还原表格结构;

4. 目前主流的方法是将表格用HTML 的超文本表示,然后对HTML 进行编码,预测HTML 序列和对应的坐标信息。该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML 的标签过多导致表格结构识别容易出错。(百度的Paddle和中国平安的table master)

5. 其他。

标注格式PubTabNet:

 

这里要区分两个概念:a单元格的绝对坐标,b单元格内文本块(可能多行)的绝对坐标。PubTabNet的标注格式是 b种格式,相应的百度的Paddle和中国平安的table master也是用的这种格式,所以都是用序列化模型(GRU、transformer)建模来预测html结构,同时预测单元格内文本块的坐标。得到了逻辑结构html、文本块坐标后,也应该都需要准确OCR信息(文本行坐标和字符)进行后处理还原完整的表格信息。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别示例代码表格识别

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值