Rethinking Image-based Table Recognition Using Weakly Supervised Methods(ICPRAM 2023)

Rethinking Image-based Table Recognition Using Weakly Supervised Methods(ICPRAM 2023)

###一.概述
作者认为现今大多数表格识别方法的训练数据需要大量的表格图像标注,单元格和文本框的图像标注,但是这些数据很难获取,标注昂贵。为此作者提出一种弱监督表格识别方法WSTabNet,该方法仅依赖HTML或LaTeX的表格标注方式。提出的方法主要由三部分组成:一个特征编码器,一个表格结构生成的结构解码器,一个预测每个单元格内容的单元格解码器,这是一种端到端训练的模型。文本还创建并发布了WikiTableSet数据集,共400万张英文表格图像、59万张日文表格图像和64万张法文表格图像。试验在数据集WikiTableSet,FinTabNet以及PubTabNet上取得了不错效果。
作者认为本文主要贡献有:

1.提出一种新的端到端弱监督学习模型WSTabNet,用于图像的表格识别。

2.提出新的数据集WikiTableSet。

3.效果不错。

二.方法概述

WSTabNet主要由三个部分组成,如上图所示:

1.用于特征提取的编码器。

2.用于识别表格结构的结构解码器。

3.用于预测表中每个单元格的内容的单元格解码器。

编码器从输入表格图像中提取特征,并将其编码为特征序列。特征序列传递到结构解码器中,以预测表格结构的HTML token序列。当结构解码器生成表示新单元格(' <td> '或' <td…> ')的HTML结构token时,对应于该单元格的结构解码器的隐状态输出被传递到单元格解码器中,以预测该单元格的文本内容。最后,将单元格的文本内容插入相应的HTML结构token中。

三.方法组件

1.编码器(Encoder)

利用ResNet-31(每个残差块后接一个Multi-Aspect Global Context Attention,即GCAttention)作为CNN-backbone,后再接一个位置编码。所有表格图像在输入模型前,都会resize到480*480。

2.结构解码器(Structure Decoder)

网络:3层的Transformer Decoder layer + fc +softmax,8个注意力头,输入特征size是512,前馈网络的输入特征size是2048。最大序列长度是500。

输入:编码器Encoder的输出+query。

输出:为表格结构的html tag。

qkv说明:

编码器Encoder的输出作为key和value,query分训练和infer两种情况:

训练:gt的html tag 作为query。

infer:前几步pred的html tag作为query。

3.单元格解码器(Cell Decoder)

网络:一层Transformer Decoder layer + fc +softmax,8个注意力头,输入特征size是512,前馈网络的输入特征size是2048。最大序列长度是150。

输入:编码器Encoder的输出+Table Structure Decoder输出+query。

输出:为表格结构的html tag。

qkv说明:

编码器Encoder的输出作为key和value,query分训练和infer两种情况:

训练:cell内的文本字符gt作为query。

infer:前几步pred的文本字符作为query。

说明:只有碰html tag为 <td></td> 和 <td 时才会进入 Cell Decoder,解码结果直接插入到html字符串中形成最后的表格结果。
4.损失函数

这里的Lstruc和Lcell,分别是生成结构token和预测单元token的交叉熵损失。𝜆 ∈[0,1]是权重超参。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨痕_777

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值