重磅开源!平安产险提出TableMASTER:表格识别大师

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

TableMASTER

在4月份结束的 ICDAR2021 科学文献解析表格Table2HTML 赛道,平安财产保险视觉计算团队基于文本识别算法MASTER,提出了适用于表格识别的TableMASTER算法,并取得了该赛道的亚军。目前,作者团队基于开源工具箱mmocr,复现了该解决方案,代码已开源!

论文:https://arxiv.org/abs/2105.01848

GitHub代码链接:https://github.com/JiaquanYe/TableMASTER-mmocr

MASTER代码链接:https://github.com/JiaquanYe/MASTER-mmocr

背景

表格作为传递信息的文本格式之一,在文献(尤其是科学文献)中广泛存在。在 ICDAR2021 科学文献解析表格Table2HTML 比赛中,参赛选手需要设计一个算法模型或者算法系统,把包含表格数据的图像,转为HTML代码。平安财产保险视觉计算团队作为本次比赛参赛选手,提出了TableMASTER算法模型,采用多任务学习的模式,同时进行表格结构序列预测以及单元格位置回归,最后通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到HTML代码。最终,团队以96.32 TEDS score的成绩,取得了该赛道的亚军。比赛的详细介绍可点击链接:

https://aieval.draco.res.ibm.com/challenge/40/overview

简介

整个解决方案可以分为4个部分:表格结构序列识别表格文本行检测表格文本行识别,以及单元格与表格结构序列匹配。表格识别的整个流程如下图所示。

在表格结构序列识别部分,使用的就是上述提到的TableMASTER。该模型改进自团队自研的文本识别算法MASTER。它与原生的MASTER在结构上的区别如下图所示。

TableMASTER的特征提取器与MASTER的特征提取器在结构上是大体一致的,采用的都是改进过的ResNet网络。但TableMASTER在解码阶段,经过一个Transformer Layer后,会分成两条分支。一条分支进行表格结构序列的监督学习,另一条分支则进行表格中单元格位置回归的监督学习。之所以经过一个Transformer Layer后再分开两个分支,而没有选择经过3个Transformer layer后再加两个不同任务的head,是为了更好的解耦特征。为了使表格序列预测的长度与回归单元格的数目对齐,在训练时会把单元格位置回归分支中非单元格的地方Mask掉,不算入bbox回归损失。同理,在预测时也会根据结构序列预测结果,Mask掉非单元格的地方,取其他位置的回归结果作为输出。TableMASTER单元格位置回归预测结果可视化如下图所示。

在表格文本行检测部分,我们采用的是经典的文本检测算法PSENet,进行文本行检测。需要的注意的是,比赛举办方使用的数据集为PubTabNet,其提供的标注文件中,并没有提供以文本行为单位的位置信息。因此,我们在训练集中随机抽取了2500张表格图片,进行了文本行的标注。标注结果将用于PSENet的训练。实验证明,在本任务中,2500张带标注的表格图片,足以训练一个近乎完美的文本检测模型。PSENet文本行检测可视化结果如下图所示。

在表格文本行识别部分,我们采用的是自研文本识别算法MASTER,对PSENet检测结果进行识别。由于PubTabNet数据集中只提供了单元格级别的位置信息,因此以该位置信息裁剪出来的文本行图片,是不仅包含单行文本,还有一部分是多行文本。而MASTER是基于2D注意力文本识别算法,因此可同时支持对单行、多行文本数据进行训练。采用PSENet + MASTER,文本行在验证集端对端的识别准确率可达0.9885

在单元格与表格结构序列匹配部分,我们定义了三种匹配规则,分别是Center Point RuleIOU Rule,以及Distance Rule。这三种匹配规则按一定优先级执行,先进行Center Point Rule的匹配,没匹配上的进行IOU Rule的匹配,最后是Distance Rule的匹配。关于匹配规则的详细描述,可参考技术文档中的2.4节。匹配效果如下图所示。

结论

  1. 提出的TableMASTER可以同时进行表格结构序列预测以及单元格位置预测

  2. 采用PSENet + MASTER文本行在验证集端对端的识别准确率可达0.9885

  3. 定义了三种匹配规则,用于融合TableMASTER输出的表格结构序列结果和PSENet + MASTER文本识别结果,得到最终的HTML代码

  4. 96.32 TEDS score的成绩,取得了该赛道的亚军

作者团队

平安财产保险视觉计算团队(VC组)专注解决金融保险领域的计算机视觉应用问题,团队积极创新,已有多项自研OCR 、关键性信息抽取技术。以下是团队近年来获得的荣誉:

  • 在ICDAR2019票据识别及关键信息3个任务中,团队分别斩获第二,第三,第一名;

  • Kaggle举办的百度/北大无人驾驶比赛中,获得亚军;

  • ICDAR2021科学文献解析表格Table2Latex 赛道冠军;

  • ICDAR2021科学文献解析表格Table2HTML 赛道亚军;

  • ICDAR2021数学公式检测赛道冠军;

  • 第五届中国创新挑战赛智慧教育专题赛手写公式识别亚军。

上述论文和代码下载

后台回复:TableMASTER,即可下载论文和代码

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

重磅!Transformer交流群成立

扫码添加CVer助手,可申请加入CVer-Transformer微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值