An End-to-End Local Attention Based Model for Table Recognition(ICDAR 2023)

子墨777

于 2024-10-01 15:18:26 发布

阅读量1.4k

点赞数 45

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ttomchy/article/details/142671225

版权

An End-to-End Local Attention Based Model for Table Recognition(ICDAR 2023)

一.前述

作者认为基于Transformer的表格识别模型很难处理大表格的识别，原因是受限于它的全局注意力global attention机制。

基于以上，作者提出了一种局部注意力local attention机制。作者也提出了一种端到端的基于局部注意力模型，去识别表格结构以及表格单元格内容。

所提出的方法主要由四个组成部分：

1)1个用于特征抽取的编码器；

2)3个解码器用于表格识别的3个子任务。

本方法在数据集PubTabNet与FinTabNet上取得了state-of-the-art。

二.概述

本文的主要贡献如下：

1.提出在编码器decoder中使用局部注意力local attention机制。

2.提出端到端的识别模型，便于训练和推理。

3.实验证明了局部注意力机制在表格识别中的有效性。

4.提出的方法在基准数据集上达到了state-of-the-art。

三.方法概述

1.局部注意力机制(Local Attention Mechanism)

一句话，局部注意力是利用窗口大小来使解码器更注重那些重要的tokens上。

(1).局部注意力的公式

以上公式是经典的transformer中的attention权重的计算。

为了实现局部注意力，文中定义了一个mask矩阵M，如上式，这M表示查询Q应该关注的键K的位置。当mask上的元素值1，表示注意力是活动的，如果是0表示不关注。

式中的w表示局部注意力窗口的大小。

上式是局部注意力最终的输出计算，括号内是逐元素相乘。

(2).mask多头注意力(Masked Multi-head Local Attention)

mask多头注意力通过不同的线性变换，对查询q，键k，值v映射h次，获得h个不同的表示(Q,K,V)。然后并行执行局部注意力，获得h个head输出值。

最后h个head的输出值串联起来，再经过一层线性变换，最终的公式如上所示。

(3).基于局部注意力编码层(Local Attention-Based Decoder Layer)

下图一目了然，无需再解析。

2.端到端模型

上图中的端到端模型主要由4个部分组成：基于CNN的特征抽取编码器；三个解码器，用于3个表格识别的子任务（表格结构识别、表格单元格检测以及表格单元格内容识别）。大体流程是:

A.输入一张表格图像

B.特征抽取编码成序列形式

C.序列特征输入到结构解码器structure decoder预测表格结构的token序列

D.当structure decoder产生表格单元格的token时，cell-bbox decoder和cell-content decoder就触动了，其使用structure decoder的隐状态来预测边框坐标以及单元格内容。

E.最后，每个单元格内容，被插入到结构token序列的相应单元格中，输出最终的表格表示。

(1).编码器(Encoder)

利用基于ResNet-31 backbone（对于每个残差块使用Multi-Aspect Global Context Attention）的网络模型抽取输入图像的特征

（输入编码器前图像要resize到520520），抽取的特征再经过一个位置编码层。最终输出固定大小的序列特征。输出的feature map的维度是6565

(2).结构解码器(Structure Decoder)

这部分由三层局部注意力解码器层后再跟一个线性层和一个softmax组成。文中説这里的局部注意力机制有助于结构解码器在预测一个结构token时更加注意其局部重要特征

（即更加注重邻居的tokens）。从图中可以看出三层的local attention的K和V向量都是来自编码层的输出。在训练时，输入的右移序列会经过embedding层和position层，

这里的输出作为Q向量，和前面的K,V一起进入局部注意力机制。推理时这里的输入是structure decoder的输出进行拼接。最后再经过线性层和softmax层，生成表格结构的token。

(3).单元格边框解码器(Cell-Bbox Decoder)

这部分由一个局部注意力解码层，一个线性层和一个sigmoid层组成。这部分会在structure decoder预测新的单元格时会被触发，它的输入一部分是由

structure decoder的隐状态作为Q向量，编码器的输出作为K和V向量，一起进入一个局部注意力机制，后跟一个线性层，经过sigmoid预测输出最终的4个单元格坐标。

(4).单元格内容解码器(Cell-Content Decoder)

这部分其实就是一个文本识别器，它由一个embedding层，一个position层，一个全局注意力层global attention-based decoder，后跟一个线性层和

softmax层组成（这里没有使用局部注意力，作者説是因为单元格里的内容远少于表格结构，所以利用全局注意力更容易学到重要特征）。当structure decoder

预测输出一个新的单元格时，cell-content decoder就触发了。它的输入一部分来自编码器的输出（作为K和V向量），一部分是右移的单元格里的内容序列

（经过embedding层和position位置编码，再加上相应对的单元格structure decoder的隐状态信息。）作为Q向量，最后经过一个线性层和一个softmax层，

预测输出单元格的文本内容。

(5).损失函数

上式中的ℒstruc. and ℒcont.是利用交叉熵cross-entropy分别实现的table结构识别损失和单元格内容预测损失，ℒbbox是利用L1 loss实现的单元格边框预测的损失。

𝜆1、𝜆2和𝜆3为权值超参数。

(6).相关参数设置

structure decoder和cell-bbox decoder所有的局部注意力local attention decoder层都是设置为8头,输入特征大小为512，前馈网络大小为2048。

所有的局部注意力机制的窗口大小window size设置为300。在解码过程中，structure token和cell token最大的序列长度分别是600和150。
在这里插入图片描述

关注

45
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

子墨777 CSDN认证博客专家 CSDN认证企业博客

码龄9年

272: 原创

6245: 周排名

7711: 总排名

26万+: 访问

: 等级

5023: 积分

876: 粉丝

1342: 获赞

20: 评论

1323: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL启动报错：InnoDB: Unable to lock ./ibdata1 error
穷苦书生_万事愁: 博主的这篇文章真的让我对MySQL启动报错有了全新的认识，文章中的细节描写非常到位，让我感受到了博主的深厚功底和对这个主题的熟悉程度。希望博主能够继续分享更多类似的高质量内容，同时也期待能够得到博主的指导，共同进步成长。感谢博主的分享和支持！
论文阅读笔记-Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Celery-----分布式任务队列
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
c++ unordered_map
CSDN-Ada助手: C语言的编译器有哪些常见的版本？
二分查找递归与非递归的实现
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。