An End-to-End Local Attention Based Model for Table Recognition(ICDAR 2023)

An End-to-End Local Attention Based Model for Table Recognition(ICDAR 2023)

一.前述

作者认为基于Transformer的表格识别模型很难处理大表格的识别,原因是受限于它的全局注意力global attention机制。

基于以上,作者提出了一种局部注意力local attention机制。作者也提出了一种端到端的基于局部注意力模型,去识别表格结构以及表格单元格内容。

所提出的方法主要由四个组成部分:

1)1个用于特征抽取的编码器;

2)3个解码器用于表格识别的3个子任务。

本方法在数据集PubTabNet与FinTabNet上取得了state-of-the-art。

二.概述

本文的主要贡献如下:

1.提出在编码器decoder中使用局部注意力local attention机制。

2.提出端到端的识别模型,便于训练和推理。

3.实验证明了局部注意力机制在表格识别中的有效性。

4.提出的方法在基准数据集上达到了state-of-the-art。

三.方法概述

1.局部注意力机制(Local Attention Mechanism)

一句话,局部注意力是利用窗口大小来使解码器更注重那些重要的tokens上。

(1).局部注意力的公式

以上公式是经典的transformer中的attention权重的计算。

为了实现局部注意力,文中定义了一个mask矩阵M,如上式,这M表示查询Q应该关注的键K的位置。当mask上的元素值1,表示注意力是活动的,如果是0表示不关注。

式中的w表示局部注意力窗口的大小。

上式是局部注意力最终的输出计算,括号内是逐元素相乘。

(2).mask多头注意力(Masked Multi-head Local Attention)

mask多头注意力通过不同的线性变换,对查询q,键k,值v映射h次,获得h个不同的表示(Q,K,V)。然后并行执行局部注意力,获得h个head输出值。

最后h个head的输出值串联起来,再经过一层线性变换,最终的公式如上所示。

(3).基于局部注意力编码层(Local Attention-Based Decoder Layer)

下图一目了然,无需再解析。

2.端到端模型

上图中的端到端模型主要由4个部分组成:基于CNN的特征抽取编码器;三个解码器,用于3个表格识别的子任务(表格结构识别、表格单元格检测以及表格单元格内容识别)。大体流程是:

A.输入一张表格图像

B.特征抽取编码成序列形式

C.序列特征输入到结构解码器structure decoder预测表格结构的token序列

D.当structure decoder产生表格单元格的token时,cell-bbox decoder和cell-content decoder就触动了,其使用structure decoder的隐状态来预测边框坐标以及单元格内容。

E.最后,每个单元格内容,被插入到结构token序列的相应单元格中,输出最终的表格表示。

(1).编码器(Encoder)

利用基于ResNet-31 backbone(对于每个残差块使用Multi-Aspect Global Context Attention)的网络模型抽取输入图像的特征

(输入编码器前图像要resize到520520),抽取的特征再经过一个位置编码层。最终输出固定大小的序列特征。输出的feature map的维度是6565

(2).结构解码器(Structure Decoder)

这部分由三层局部注意力解码器层后再跟一个线性层和一个softmax组成。文中説这里的局部注意力机制有助于结构解码器在预测一个结构token时更加注意其局部重要特征

(即更加注重邻居的tokens)。从图中可以看出三层的local attention的K和V向量都是来自编码层的输出。在训练时,输入的右移序列会经过embedding层和position层,

这里的输出作为Q向量,和前面的K,V一起进入局部注意力机制。推理时这里的输入是structure decoder的输出进行拼接。最后再经过线性层和softmax层,生成表格结构的token。

(3).单元格边框解码器(Cell-Bbox Decoder)

这部分由一个局部注意力解码层,一个线性层和一个sigmoid层组成。这部分会在structure decoder预测新的单元格时会被触发,它的输入一部分是由

structure decoder的隐状态作为Q向量,编码器的输出作为K和V向量,一起进入一个局部注意力机制,后跟一个线性层,经过sigmoid预测输出最终的4个单元格坐标。

(4).单元格内容解码器(Cell-Content Decoder)

这部分其实就是一个文本识别器,它由一个embedding层,一个position层,一个全局注意力层global attention-based decoder,后跟一个线性层和

softmax层组成(这里没有使用局部注意力,作者説是因为单元格里的内容远少于表格结构,所以利用全局注意力更容易学到重要特征)。当structure decoder

预测输出一个新的单元格时,cell-content decoder就触发了。它的输入一部分来自编码器的输出(作为K和V向量),一部分是右移的单元格里的内容序列

(经过embedding层和position位置编码,再加上相应对的单元格structure decoder的隐状态信息。)作为Q向量,最后经过一个线性层和一个softmax层,

预测输出单元格的文本内容。

(5).损失函数

上式中的ℒstruc. and ℒcont.是利用交叉熵cross-entropy分别实现的table结构识别损失和单元格内容预测损失,ℒbbox是利用L1 loss实现的单元格边框预测的损失。

𝜆1、𝜆2和𝜆3为权值超参数。

(6).相关参数设置

structure decoder和cell-bbox decoder所有的局部注意力local attention decoder层都是设置为8头,输入特征大小为512,前馈网络大小为2048。

所有的局部注意力机制的窗口大小window size设置为300。在解码过程中,structure token和cell token最大的序列长度分别是600和150。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值