重磅开源！平安产险提出TableMASTER：表格识别大师

最新推荐文章于 2024-08-24 09:54:56 发布

Amusi（CVer）

最新推荐文章于 2024-08-24 09:54:56 发布

阅读量3.9k

点赞数 2

文章标签：算法计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/amusi1994/article/details/119525287

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

TableMASTER

在4月份结束的 ICDAR2021 科学文献解析表格Table2HTML 赛道，平安财产保险视觉计算团队基于文本识别算法MASTER，提出了适用于表格识别的TableMASTER算法，并取得了该赛道的亚军。目前，作者团队基于开源工具箱mmocr，复现了该解决方案，代码已开源！

论文：https://arxiv.org/abs/2105.01848

GitHub代码链接：https://github.com/JiaquanYe/TableMASTER-mmocr

MASTER代码链接：https://github.com/JiaquanYe/MASTER-mmocr

背景

表格作为传递信息的文本格式之一，在文献（尤其是科学文献）中广泛存在。在 ICDAR2021 科学文献解析表格Table2HTML 比赛中，参赛选手需要设计一个算法模型或者算法系统，把包含表格数据的图像，转为HTML代码。平安财产保险视觉计算团队作为本次比赛参赛选手，提出了TableMASTER算法模型，采用多任务学习的模式，同时进行表格结构序列预测以及单元格位置回归，最后通过后处理匹配算法，融合表格结构序列和单元格文本内容，得到HTML代码。最终，团队以96.32 TEDS score的成绩，取得了该赛道的亚军。比赛的详细介绍可点击链接：

https://aieval.draco.res.ibm.com/challenge/40/overview

简介

整个解决方案可以分为4个部分：表格结构序列识别，表格文本行检测，表格文本行识别，以及单元格与表格结构序列匹配。表格识别的整个流程如下图所示。

在表格结构序列识别部分，使用的就是上述提到的TableMASTER。该模型改进自团队自研的文本识别算法MASTER。它与原生的MASTER在结构上的区别如下图所示。

TableMASTER的特征提取器与MASTER的特征提取器在结构上是大体一致的，采用的都是改进过的ResNet网络。但TableMASTER在解码阶段，经过一个Transformer Layer后，会分成两条分支。一条分支进行表格结构序列的监督学习，另一条分支则进行表格中单元格位置回归的监督学习。之所以经过一个Transformer Layer后再分开两个分支，而没有选择经过3个Transformer layer后再加两个不同任务的head，是为了更好的解耦特征。为了使表格序列预测的长度与回归单元格的数目对齐，在训练时会把单元格位置回归分支中非单元格的地方Mask掉，不算入bbox回归损失。同理，在预测时也会根据结构序列预测结果，Mask掉非单元格的地方，取其他位置的回归结果作为输出。TableMASTER单元格位置回归预测结果可视化如下图所示。

在表格文本行检测部分，我们采用的是经典的文本检测算法PSENet，进行文本行检测。需要的注意的是，比赛举办方使用的数据集为PubTabNet，其提供的标注文件中，并没有提供以文本行为单位的位置信息。因此，我们在训练集中随机抽取了2500张表格图片，进行了文本行的标注。标注结果将用于PSENet的训练。实验证明，在本任务中，2500张带标注的表格图片，足以训练一个近乎完美的文本检测模型。PSENet文本行检测可视化结果如下图所示。

在表格文本行识别部分，我们采用的是自研文本识别算法MASTER，对PSENet检测结果进行识别。由于PubTabNet数据集中只提供了单元格级别的位置信息，因此以该位置信息裁剪出来的文本行图片，是不仅包含单行文本，还有一部分是多行文本。而MASTER是基于2D注意力文本识别算法，因此可同时支持对单行、多行文本数据进行训练。采用PSENet + MASTER，文本行在验证集端对端的识别准确率可达0.9885。

在单元格与表格结构序列匹配部分，我们定义了三种匹配规则，分别是Center Point Rule，IOU Rule，以及Distance Rule。这三种匹配规则按一定优先级执行，先进行Center Point Rule的匹配，没匹配上的进行IOU Rule的匹配，最后是Distance Rule的匹配。关于匹配规则的详细描述，可参考技术文档中的2.4节。匹配效果如下图所示。

结论

提出的TableMASTER可以同时进行表格结构序列预测以及单元格位置预测
采用PSENet + MASTER文本行在验证集端对端的识别准确率可达0.9885
定义了三种匹配规则，用于融合TableMASTER输出的表格结构序列结果和PSENet + MASTER文本识别结果，得到最终的HTML代码
以96.32 TEDS score的成绩，取得了该赛道的亚军

作者团队

平安财产保险视觉计算团队（VC组）专注解决金融保险领域的计算机视觉应用问题，团队积极创新，已有多项自研OCR 、关键性信息抽取技术。以下是团队近年来获得的荣誉：

在ICDAR2019票据识别及关键信息3个任务中，团队分别斩获第二，第三，第一名；
Kaggle举办的百度/北大无人驾驶比赛中，获得亚军；
ICDAR2021科学文献解析表格Table2Latex 赛道冠军；
ICDAR2021科学文献解析表格Table2HTML 赛道亚军；
ICDAR2021数学公式检测赛道冠军；
第五届中国创新挑战赛智慧教育专题赛手写公式识别亚军。

上述论文和代码下载

后台回复：TableMASTER，即可下载论文和代码

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群