【读点论文】LORE Logical Location Regression Network for Table Structure Recognition从单元格中心位置,推理角点定位,输出逻辑坐标

LORE: Logical Location Regression Network for Table Structure Recognition

Abstract

  • 表结构识别(TSR)旨在将图像中的表提取成机器可理解的格式。最近的方法通过预测检测到的单元格框的邻接关系或学习从表图像中生成相应的标记序列来解决这个问题。然而,它们要么依赖额外的启发式规则来恢复表结构,要么需要大量的训练数据和耗时的顺序解码器。在本文中,我们提出了另一种范式。我们将TSR建模为一个逻辑位置回归问题,并提出了一个新的TSR框架,称为LORE,即逻辑位置回归网络,该框架首次将逻辑位置回归与表单元格的空间位置回归结合在一起。我们提出的LORE在概念上更简单,更容易训练,并且比其他范式的先前TSR模型更准确。在标准基准上进行的实验表明,LORE始终优于现有技术。代码可在https:// github.com/AlibabaResearch/AdvancedLiterateMachinery/ tree/main/DocumentUnderstanding/LORE-TSR。
  • 论文地址:[2303.03730] LORE: Logical Location Regression Network for Table Structure Recognition (arxiv.org)
  • 表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中,表格结构信息主要包括以下两类描述形式: 1)单元格的列表(包含每个单元格的位置、单元格 的行列信息、单元格的内容);2)HTML代码或Latex 代码(包含单元格的位置信息,有些也会包含单元格的内容)。
  • 与表格区域检测任务类似,在早期的表格结构识别方法中,研究者们通常会根据数据集特点,设计启发式算法或者使用机器学习方法来完成表格结构识别任务。根据表格中单元格的二维布局的 规律性,使用连通体分析抽取其中的文本块,然后 对每个文本块进行扩展对齐形成单元格,从而得到 每个单元格的物理坐标和行列位置。根据行列来进行表格结构的识别,其先 识别出图片中的文本块,然后按照文本块的位置以及两个单元格中间的空白区域做行的聚类和列的聚类,之后通过行和列的交叉得到每个单元格的位 置和表格的结构。从表格线出发,通过平行、垂直等几何分析得到表格的行和列,并使用动态规划匹配的方法对各个内容块进 行逻辑关系识别,来恢复表格的结构。使用视觉特征进行表格的识别,使用行线和列线以及空白区域进行单元格分割。

Introduction

  • 表格格式的数据普遍存在于各种类型的文档中,用于汇总和显示信息。随着世界走向数字化,对非结构化数据(如图像和PDF文件)中的表进行解析的需求正在迅速增长。虽然对人类来说很简单,但由于表格的布局和样式的多样性,它对自动化系统来说是具有挑战性的。表结构识别(TSR)是指将图像中的表转换为机器可理解的格式,通常是逻辑坐标或标记序列。提取的表结构对于信息检索、表到文本生成和问答系统等都是至关重要的。

  • 随着深度学习的发展,TSR方法近年来取得了长足的进步。大多数基于深度学习的TSR方法可以分为以下几种范式。第一类模型旨在探索被检测单元格对之间的邻接关系,以产生中间结果。它们依赖于繁琐的后处理或图形优化算法来将表重构为逻辑坐标,如下图 (a)所示,这将与复杂的表结构作斗争。另一种范式将TSR表述为标记语言序列生成问题,如下图 (b)所示。它简化了TSR管道,但模型应该从噪声序列标签中冗余学习标记语法,这导致训练数据量大得多。此外,由于这些模型的解码过程是顺序的,因此耗时较长。

    • 在这里插入图片描述

    • 使用不同表结构表示的TSR范式。其中sr、er、sc、ec分别表示起始行、结束行、起始列和结束列。

  • 事实上,逻辑坐标是表结构的定义良好的机器可理解的表示,它可以完整地重建表,如图 ©所示最近,工作的重点是探索表单元格的逻辑位置。然而,该方法通过顺序分类预测逻辑位置,并且不考虑逻辑位置之间的自然依赖关系。例如,表本身的设计是从上到下,从左到右,导致单元格的逻辑位置是相互依赖的。下图概述了逻辑位置的这种性质。此外,该研究还缺乏对各种TSR范式的全面比较。

    • 在这里插入图片描述

    • 通常回归(左)和逻辑位置回归(右)之间的比较。典型的回归假设是不同的目标是独立分布的。然而,逻辑索引之间存在依赖关系,例如,单元格’ 70.6 '的逻辑位置受到周围四个单元格的逻辑位置的约束。

  • 针对现有方法的局限性,我们提出了一种概念更简单、更有效的TSR框架——逻辑位置回归网络(LOgical Location REgression Network,简称LORE)。它首先定位输入图像上的表格单元格,然后预测单元格的逻辑位置和空间位置。为了更好地建模逻辑位置之间的依赖关系和约束,采用了级联回归框架,并结合了单元格间和单元格内的监督。LORE的推理是一个并行的网络前向传递,不需要任何复杂的后处理或顺序解码策略。

  • 我们在不同范式的TSR方法的广泛基准上评估了LORE。实验表明,LORE具有很强的竞争力,并且优于以前最先进的方法。具体来说,LORE大大超过了其他逻辑位置预测方法。此外,由LORE预测得到的邻接关系和标记序列的质量更高,这表明LORE涵盖了在其他TSR范式下训练的模型的能力。我们的主要贡献可以概括如下:

    • 我们提出将TSR建模为逻辑位置回归问题,并设计了一种新的TSR框架,该框架可以捕获单元逻辑位置之间的依赖关系和约束,并预测逻辑位置和空间位置
    • 我们的经验证明,逻辑位置回归范式是非常有效的,并且涵盖了以前的TSR范式的能力,如预测邻接关系和生成标记序列
    • 通过消除设计后处理和解码策略的努力,LORE提供了一种不干涉的方式来应用有效的TSR模型。该代码可用于支持对TSR的进一步调查。
  • 本模型的主要原理为: 1)基于无线单元格中心点回归出到4个顶点的距离,解码出单元格bbox;2)结合视觉特征与单元格bbox信息,采用两个级联回归器兼顾全局与局部注意力,直接对单元格的逻辑坐标进行回归;3)模型训练时显式利用单元格间与单元格内逻辑约束对模型进行优化

  • 本模型预期的输入为截取好的单个无线表格图片,如果图中含有非表格内容或多个表格会导致结果错误。模型的输出为图中无线表格单元格的物理坐标与逻辑坐标,具体地,物理坐标为单元格的四个角点的坐标,左上角为第一个点,按照 顺时针的顺序依次输出各个点的坐标 \textcolor{red}{顺时针的顺序依次输出各个点的坐标} 顺时针的顺序依次输出各个点的坐标,分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4),逻辑坐标为从0开始的起始及结束行列号,具体格式为 ( s t a r t _ r o w , e n d _ r o w , s t a r t _ c o l u m n , e n d _ c o l u m n ) \textcolor{red}{(start\_row,end\_row,start\_column,end\_column)} (start_row,end_row,start_column,end_column)。用户可以自行尝试各种输入图片。

    • 在这里插入图片描述
  • Resize Pad(预处理): 输入图片长边resize到768,短边等比例缩放,并且补pad到长短边相等。同时有减均值除方差等归一化操作。模型主要用于无线表格,有线表格不支持

Related Work

  • 早期作品引入了分割或检测框架来定位和提取表行和列的分裂行。随后,他们根据经验用预定义的规则对单元格框进行分组,从而重建表结构。这些模型将受到带有跨单元格或扭曲的表格的影响。最新基线通过精心设计的检测器或基于注意力的合并模块来解决这个问题,以获得更准确的单元格边界和合并结果。然而,它们要么是为特定类型的数据集量身定制的,要么需要定制处理来恢复表结构,因此很难泛化。因此出现了利用神经网络直接预测表结构的模型。

TSR as Cell Adjacency Exploring

  • Chi等人提出将表格单元格建模为文本分割区域,并利用单元格对之间的关系。准确地说,它应用图神经网络将检测到的单元格对分类为水平、垂直和不相关的关系。在这项工作之后,有一些模型致力于通过使用精心设计的神经网络和添加多模态特征来改进关系分类。但是,在关系三元组和全局表结构之间仍然存在差距。需要复杂的图优化算法或预定义的后处理来恢复表。

TSR as Markup Sequence Generation

  • 开创性地尝试以端到端方式解决TSR问题。它们使用序列解码器生成表示表结构的标记语言标记。然而,模型应该学习带有噪声标签的标记语法,这导致该方法难以训练,并且需要比其他范例更多的训练样本。此外,由于解码过程是顺序的,所以这些模型比较耗时

TSR as Logical Location Prediction

  • Xue等人提出对TSR的每个检测单元的逻辑指标进行有序分类,这与我们的方法接近。该模型利用图神经网络将检测到的单元格分类到相应的逻辑位置,而忽略了单元格逻辑位置之间的依赖关系和约束。此外,该模型仅在少数数据集上进行评估,而不是针对强TSR基线进行评估。

Problem Definition

  • 在本文中,我们将TSR问题视为空间和逻辑位置回归任务。具体来说,对于输入图像的表格,类似于检测器,一组表格单元 { O 1 ; O 2 , . . . , O N } \{O_1;O_2,...,O_N\} {O1;O2,...,ON} 被预测为它们的逻辑位置 { l 1 ; l 2 , . . . , l N } \{l_1;l_2,...,l_N \} {l1;l2,...,lN},以及空间位置 { B 1 , B 2 , . . . , B N } \{B_1,B_2,...,B_N\} {B1,B2,...,BN}其中 l i = ( r s ( i ) ; r e ( i ) ; c s ( i ) ; c e ( i ) ) l_i = (r^{(i)}_s;r^{(i)}_e;c^{(i)}_s;c^{(i)}_e) li=(rs(i);re(i);cs(i);ce(i)) 表示起始行、结束行、起始列和结束列, B i = { ( x k ( i ) ; y k ( i ) ) } k = 1 ; 2 ; 3 ; 4 B_i = \{(x ^{(i)}_ k;y^{(i)}_k)\}_{k=1;2;3;4} Bi={(xk(i);yk(i))}k=1;2;3;4 表示第 i 个单元格的四个角点,N 表示图像中的单元格数目。
  • 使用由其空间和逻辑位置表示的预测表单元格,可以将图像中的表转换为机器可理解的格式,例如关系数据库。此外,邻接矩阵和表的标记序列可以通过定义良好的转换而不是启发式规则直接从其逻辑坐标中派生出来。
  • 总体来说,表格结构识别的传统方法可以归纳为以下四种:基于行和列的分割与后处理,基于文本的检测、扩展与后处理,基于文本块的分类和后 处理,以及几类方法的融合
  • CluSTi有三个贡献。首先,它使用了一种聚类方法来消除表格图片中的高噪声。其次,它使用最先进的文本识别技术来提取所有的文本框。最后,CluSTi使用具有最优参数的水平和垂直聚类技术将文本框组织成正确的行和列。
  • Siddiqui将结构识别问题描述为语义分割问题。为了分割行和列,作者采用了完全卷积网络。假设表结构的一致性的情况下,该方法引入了预测拼接方法,降低了表格结构识别的复杂性。作者从ImageNet导入预先训练的模型,并使用FCN编码器和解码器的结构模型。当给定图像时,模型创建与原始输入图像大小相同的特征。
  • ICDAR 2019的表格结构识别最佳论文《Deep Splitting and Merging for Table Structure Decomposition》提出了一对新的深度学习模型SPLERGE(分割和合并模型),它们给定一个输入图像,1)预测基本的表格网格模式,2)预测应该合并哪些网格元素来恢复跨越多行或列的单元格。该方法提出投影池作为分割模型的一个新组成部分,而网格池作为合并模型的一个新组成部分。虽然大多数完全卷积网络依赖于局部特征,但这些独特的池化区域允许模型利用全局表格结构。该方法在PDF文档的公共ICDAR 2013表格竞赛数据集上取得了最先进的性能。在作者用来训练模型的一个更大的私有数据集上,性能明显优于一个此前最先进的深度模型和一个主要的商业软件系统。
  • 论文提出的表格结构提取方法是SPLERGE,它由两个深度学习模型组成,它们按顺序执行分割和合并操作。分割模型接受一个裁剪良好的表格的输入图像,并以跨越整个图像的行和列分隔符的形式生成表格的网格结构。由于某些表包含生成单元格,因此作者将合并模型应用于拆分模型的网格输出,以将相邻的网格元素合并在一起,以恢复生成单元格。
  • 2022年微软研究院的论文《TSRFormer: Table Structure Recognition with Transformers》提出了一种新的表格结构识别(TSR)方法,称为TSRFormer,以从各种表格图像中稳健地识别具有几何畸变的复杂表格的结构。与以往的方法不同,该方法将表格分割线预测定义为线回归问题而不是图像分割问题,并提出了一种新的基于两阶段DETR的分割预测方法,称为Separator REgression TRansformer(SepRETR),以直接预测表图像中的分割线。为了使两阶段DETR框架有效地适合于分割线预测任务,作者提出了两个改进:1)先验增强匹配策略来解决DETR的慢收敛问题;2)一种新的交叉注意模块直接从高分辨率卷积特征图中采样特征,从而在较低计算成本的情况下实现较高的定位精度。

Methodology

  • 本节详细阐述了我们提出的LORE,这是一个回归单元格空间和逻辑位置的TSR框架。如下图所示,它使用CNN主干从输入图像中提取表格单元格的视觉特征。然后用两个回归头预测单元格的空间和逻辑位置。我们特别利用级联回归量,并采用单元格间和单元格内监督来模拟逻辑位置之间的依赖关系和约束。下面的小节分别指定这些关键组件。
    • 在这里插入图片描述

    • LORE 的例证。它首先通过关键点分割来定位输入图像中的表格单元格。然后预测逻辑位置和空间位置。利用级联回归量和单元格间和单元格内的监督来更好地建模逻辑位置之间的依赖关系和约束。

Table Cell Features Preparation

  • 为了简化空间和逻辑位置的联合预测,我们采用了关键点分割网络作为特征提取器,并将图像中的每个表单元格建模为其中心点。对于宽度为W,高度为H的输入图像,网络生成特征图 f ∈ R W R × H R × d f\in R^{\frac W R ×\frac H R ×d} fRRW×RH×d 和单元格中心热图 Y ^ ∈ [ 0 , 1 ] W R ∗ H R \hat Y\in [0,1]^{\frac WR*\frac HR} Y^[0,1]RWRH,其中R、d分别为输出步幅和隐藏大小; Y ^ x , y = 1 \hat Y_{x,y} = 1 Y^x,y=1 对应检测到单元格中心, Y ^ x , y = 0 \hat Y_{x,y} = 0 Y^x,y=0 对应背景。在后续模块中,CNN的特征为 { f ( 1 ) , f ( 2 ) , . . . , f ( N ) } \{f^{(1)},f^{(2)},...,f^{(N)}\} {f(1),f(2),...,f(N)} 在检测单元格中心 { p ^ ( 1 ) ; p ^ ( 2 ) ; . . . ; p ^ ( N ) } \{\hat p^ {(1)};\hat p^ {(2)};...;\hat p^ {(N)}\} {p^(1);p^(2);...;p^(N)} 被认为是表单元格的表示。

Spatial Location Regression

  • 我们选择预测四个角点,而不是矩形边界框,以更好地处理野外表格的倾斜和扭曲。对于空间位置,对主干f的特征进行3×3卷积、ReLU和1×1卷积得到预测 { B ^ ( 1 ) ; B ^ ( 2 ) ; . . . ; B ^ ( N ) } \{\hat B^{(1)};\hat B^{(2)};...;\hat B^{(N)}\} {B^(1);B^(2);...;B^(N)} 在中心 , { p ^ ( 1 ) ; p ^ ( 2 ) ; . . . ; p ^ ( N ) } \{\hat p^ {(1)};\hat p^ {(2)};...;\hat p^ {(N)}\} {p^(1);p^(2);...;p^(N)},其中 B i = { ( x ^ k ( i ) ; y ^ k ( i ) ) } k = 1 ; 2 ; 3 ; 4 B_i = \{(\hat x ^{(i)}_ k;\hat y^{(i)}_k)\}_{k=1;2;3;4} Bi={(x^k(i);y^k(i))}k=1;2;3;4

Logical Location Regression

  • 由于表单元格的逻辑位置之间存在密集的依赖关系和约束,因此仅从单元格中心的视觉特征中学习逻辑坐标是相当具有挑战性的。利用具有单元格间和单元格内监督的级联回归器来显式地模拟单元格之间的逻辑关系

  • Base Regressor : 为了更好地从图像中建模逻辑关系,首先将视觉特征与空间信息结合起来。具体来说,将单元格的预测角点的特征计算为其视觉特征和二维位置嵌入的总和:

  • f ˉ ( x ^ k ( i ) , y ^ k ( i ) ) = f ( x ^ k ( i ) , y ^ k ( i ) , : ) + P E ( x ^ k ( i ) , y ^ k ( i ) ) \bar f_{(\hat x^{(i)}_k,\hat y_k^{(i)})}=f_{(\hat x^{(i)}_k,\hat y_k^{(i)},:)}+PE(\hat x^{(i)}_k,\hat y_k^{(i)}) fˉ(x^k(i),y^k(i))=f(x^k(i),y^k(i),:)+PE(x^k(i),y^k(i))

  • 其中 PE 为二维位置嵌入函数。然后将四个角点的特征添加到中心特征 f ( i ) f^{(i)} f(i) 中,以增强每个预测单元格中心 p ^ ( i ) \hat p^{(i)} p^(i) 的表示:

  • h ( i ) = f ( i ) + ∑ k = 1 4 w k f ˉ x ^ k ( i ) , y ^ k ( i ) , : h^{(i)}=f^{(i)}+\sum^4_{k=1}w_k\bar f_{\hat x_k^{(i)},\hat y_k^{(i)},:} h(i)=f(i)+k=14wkfˉx^k(i),y^k(i),:

  • 在[w1;w2;w3;W4]为可学习参数。

  • 然后采用消息传递和聚合网络,结合单元格的视觉空间特征之间的相互作用:

    • { h ˉ ( i ) } i = 1 ; 2 ; : : : ; N = S e l f A t t e n t i o n ( { h ( i ) } i = 1 ; 2 ; . . . ; N ) : \{\bar h ^{(i)} \}_{i=1;2;:::;N} = SelfAttention(\{h^{(i)}\}_{i=1;2;...;N} ): {hˉ(i)}i=1;2;:::;N=SelfAttention({h(i)}i=1;2;...;N):

    • 我们使用自我注意机制,以避免对表结构的分布做出额外的假设,而不是像以前的方法那样使用图形神经网络,这将在实验中进一步讨论。

  • 然后通过线性层计算基回归量的预测,其中ReLU激活从 { h ˉ ( i ) } i = 1 ; 2 ; : : : : ; N \{\bar h^{(i)}\}_{i=1;2;::::;N} {hˉ(i)}i=1;2;::::;N 作为 l i = ( r s ( i ) ; r e ( i ) ; c s ( i ) ; c e ( i ) ) l_i = (r^{(i)}_s;r^{(i)}_e;c^{(i)}_s;c^{(i)}_e) li=(rs(i);re(i);cs(i);ce(i))

  • Stacking Regressor : 虽然基回归量编码了单元格的视觉空间特征之间的关系,但每个单元格的逻辑位置仍然是单独预测的为了更好地捕获逻辑位置之间的依赖关系和约束,使用堆叠回归量来再次查看基本回归量的预测。具体来说,将增强的特征 h ˉ \bar h hˉ 和基回归量 l ^ \hat l l^ 的逻辑位置预测馈送到叠加回归量中。叠加回归量可表示为:

  • l ˉ = F s ( W s l ^ + h ˉ ) \bar l = F_s(W_s\hat l+\bar h) lˉ=Fs(Wsl^+hˉ)

  • 其中 W s ∈ R 4 × d W_s\in \R^{4×d} WsR4×d 为可学习参数, l ^ = [ l ^ ( 1 ) ; . . . ; l ^ ( N ) ] , h ˉ = [ h ˉ ( 1 ) ; : : : ; h ˉ ( 1 ) ] \hat l = [\hat l^{(1)};...;\hat l^{(N)}], \bar h = [\bar h^{(1)};:::;\bar h^{(1)}] l^=[l^(1);...;l^(N)]hˉ=[hˉ(1);:::;hˉ(1)], Fs为叠加回归函数,与基回归函数具有相同的自关注和线性结构,但具有独立的参数。Stacking Regressor 的输出为 l ˉ = [ l ˉ ( 1 ) ; . . . ; l ˉ ( N ) ] \bar l = [\bar l^{(1)};...;\bar l^{(N)}] lˉ=[lˉ(1);...;lˉ(N)],且 l i = ( r ˉ s ( i ) ; r ˉ e ( i ) ; c ˉ s ( i ) ; c ˉ e ( i ) ) l_i = (\bar r^{(i)}_s;\bar r^{(i)}_e;\bar c^{(i)}_s;\bar c^{(i)}_e) li=(rˉs(i);rˉe(i);cˉs(i);cˉe(i))。在推理阶段,通过将 $ \bar l^{(i)}$ 的四个分量赋值给最接近的整数来获得结果。

  • 为了使逻辑位置回归器更好地理解逻辑位置之间的依赖关系和约束,我们提出了单元格间和单元格内的监督,其总结为:1)不同单元格的逻辑位置应该是互斥的(单元格间)。2)一个表单元格的逻辑位置应该与其跨度(单元格内)一致

  • 在实践中,对相距很远的单元格的预测很少相互矛盾,因此我们只对相邻的单元格对进行单元格间监督。更正式地说,单元格间和单元格内损失的方案可以表示为:

    • 在这里插入图片描述

    • 式中 A r ( A c ) A_r (A_c) Ar(Ac) 为有序水平(垂直)相邻对的集合,即对于一对单元格 ( i ; j ) ∈ A r ( A c ) (i;j) \in A_r(A_c) (i;j)Ar(Ac),单元格 i 与单元格 j 在同一行(列)相邻,位于单元格 j 的右侧(下), ( r ˉ s ( i ) ; r ˉ e ( i ) ; c ˉ s ( i ) ; c ˉ e ( i ) ) (\bar r^{(i)}_s;\bar r^{(i)}_e;\bar c^{(i)}_s;\bar c^{(i)}_e) (rˉs(i);rˉe(i);cˉs(i);cˉe(i)) 是单元格 i 和单元格 j 的预测逻辑指标。

    • 在这里插入图片描述

    • 其中 M r = { i ∣ r e ( i ) − r s ( i ) ≠ 0 } , M c = { i ∣ c e ( i ) − c s ( i ) ≠ 0 } M_r = \{i|r^{(i)}_e−r^{(i)}_s \neq 0\}, M_c = \{i|c^{(i)}_e−c^{(i)}_s \neq 0\} Mr={ire(i)rs(i)=0},Mc={ice(i)cs(i)=0} 是多行多列单元格集合。则单元格间和单元格内损失(I2C)为:

    • L I 2 C = L i n t e r + L i n t r a L_{I2C}=L_{inter}+L_{intra} LI2C=Linter+Lintra

    • 监督是在输出端进行的,不需要额外的前传。

  • 在这里插入图片描述

Objectives

  • 根据典型的基于关键点的检测方法。对基回归量和叠加回归量计算逻辑位置的损失:

    • L l o g = 1 N ∑ i = 1 N ( ∣ ∣ l ^ ( i ) − l i ∣ ∣ 1 + ∣ ∣ l ˉ ( i ) − l 1 ∣ ∣ 1 ) L_{log}=\frac1N\sum^N_{i=1}(||\hat l^{(i)}-l_i||_1+||\bar l^{(i)}-l_1||_1) Llog=N1i=1N(∣∣l^(i)li1+∣∣lˉ(i)l11)
  • 然后将单元格中心分割、空间和逻辑位置回归的损失与I2C监督相加,计算联合训练的总损失:

    • L L O R E = L c e n t e r + L s p a + L l o g + L I 2 C L_{LORE}=L_{center}+L_{spa}+L_{log}+L_{I2C} LLORE=Lcenter+Lspa+Llog+LI2C

Experiments

  • 在本节中,我们进行了全面的实验来研究和回答两个关键问题:1)所提出的LORE是否能够有效地从输入图像中预测表格单元格的逻辑位置?2)将TSR建模为逻辑位置回归的LORE框架是否克服了其他范式的局限性并涵盖了其他范式的能力?
  • 对于第一个问题,我们将LORE与直接预测逻辑位置的基线进行比较。据我们所知,这是唯一两种专注于直接预测逻辑位置的方法。此外,我们提供了一个详细的消融研究,以验证主要成分的有效性。对于第二个问题,我们将LORE与将表结构建模为单元格邻接或标记序列的方法进行比较,从而获得见解和定量结果。

Datasets

  • 我们在广泛的基准上评估了LORE,包括数字生成文档中的表格,即ICDAR-2013、SciTSR-comp 、Pub-TabNet 、TableBank 和TableGraph-24K ,以及扫描文档和照片中的表格,即 ICDAR-2019 和WTW 。数据集的详细信息可在附录的第2节中找到。值得注意的是,ICDAR-2013没有提供训练数据,因此我们将其扩展到部分版本,以便根据之前的工作进行交叉验证。当在PubTabNet上训练LORE时,为了提高效率,我们从训练集中随机选择2万张图像。

Evaluation Metric

  • 使用不同的度量来评估不同范式的TSR模型,包括1)逻辑位置的准确性, 2)单元格间邻接关系的F-1分数,以及3)BLEU¨和TEDS 。我们在补充文件的第3节中详细介绍了这些指标。逻辑位置、BLEU和TEDS的准确性直接反映了预测结构的正确性,而邻接性评价仅衡量结构中间结果的质量。
  • 在我们的实验中,LORE在所有三种类型的度量下进行评估,因为逻辑坐标对于表示表结构来说是完整的,并且可以通过简单而明确的转换转换为邻接矩阵和标记序列(参见补充材料的第1节)。在对TEDS进行评估时,我们使用了郑等人从PDF文件中提取的非样式文本。我们还报告了单元格空间位置预测的性能,使用IoU阈值0.5下的F-1分数,遵循最近的工作。

Implementation

  • 在表图像上训练和评估LORE,最大边缩放到固定大小1024 (SciTSR和PubTabNet为512),短边大小相等。模型训练100个epoch,初始学习率选择为1 × 10−4,在所有基准的第70和90个epoch分别衰减为1 × 10−5和1 × 10−6。所有实验均在4颗NVIDIA Tesla V100 gpu的平台上进行。我们使用DLA-34 主干,输出步幅R = 4,通道数d = 256。在WTW数据集上实现时,采用Long等人的方法进行角点估计。对于基础回归量和堆叠回归量,注意层的数量都设置为3。我们将模型运行5次,取其平均性能。

Results on Benchmarks

  • 首先,我们将LORE与直接预测逻辑位置的模型进行比较,包括Res2TIM和TGRNet。我们对Xue 等人在WTW数据集上提供的模型进行了调优,以进行彻底的比较。如下表所示,LORE显著优于前面的方法。基线方法只能在相对简单的科学文章数字生成的表格图像的基准上产生合格的结果,即TableGraph-24K。

    • 在这里插入图片描述

    • 与TSR方法预测逻辑位置的比较。这里的F-1分数是单元格检测的指标。下划线表示最好的。

  • 然后,我们将LORE与通过基于关系的度量挖掘细胞邻接性的模型进行比较:TabStrNet, LGPMA,TOD , FLAGNet 和NCGM 。LORE的邻接关系结果来源于前面提到的输出逻辑位置。结果如下表所示。值得注意的是,LORE在ICDAR-2019和WTW扫描文档和照片等具有挑战性的基准测试中表现得更好。这些数据集中的表具有更多的跨越单元和畸变。实验表明,作为逻辑位置回归的副产品,LORE能够预测邻接关系。

    • 在这里插入图片描述

    • 与TSR方法预测单元格邻接性的比较。精度、召回率和F-1分数是基于邻接关系的度量来评估的。下划线表示最好的。

  • 最后,我们针对Image2Text 和 EDD 在标记序列生成场景上评估了LORE,结果也来自LORE的输出逻辑位置。特别地,由于TableBank 数据集不提供单元格的空间位置,我们实现了在SciTSR (TableBank大小的1/10)上训练的LORE来对其进行评估。结果如下表所示。实验结果表明,即使在更少的样本上训练,LORE也更有效。

    • 在这里插入图片描述

    • 与生成标记序列的TSR方法的比较。下划线表示最好的。

Ablation Study

  • 为了研究我们提出的LORE的关键组成部分如何促进逻辑位置回归,我们对 WTW 数据集进行了密集的消融研究。结果如下表所示。首先,我们通过训练几个模型来评估单元格间损失 L i n t e r L_{inter} Linter 和单元格内损失 L i n t r a L_{intra} Lintra 的有效性,打开和关闭它们。根据实验1a和1b的结果,我们看到单元格间监督使性能提高了+0.8%Acc。而从1a和1c来看,单元格内监管获益更多,增加了+1.8%Acc,这是因为它构成了信息传递和聚集机制,根据其单元格间的性质,它对细胞内关系的关注比对细胞间关系的关注要少。两种监督相结合,效果最好。
    • 在这里插入图片描述

    • LORE的消融研究。A-c、A-r和Acc是指列索引、行索引和所有逻辑索引的精度。所有这些模型都是根据“实现”部分从头开始训练的。

  • 然后,我们评估了模型架构的影响,即消息聚合模式和级联框架的重要性。在实验2a中,我们用类似于基于图的TSR模型的图-注意编码器替换自注意编码器,参数数量与LORE相同。它会导致性能持续下降。基于图的编码器仅根据欧几里得距离聚合每个节点最接近的top-K个特征的信息,这对表结构是有偏见的。在实验2b中,我们使用单个6层回归量而不是两个3层级联回归量。我们可以观察到从1d到2b的性能下降了3.1%,这表明级联框架可以更好地模拟不同单元逻辑位置之间的依赖关系和约束。

Further Comparison among Paradigms

  • 在本节中,我们将进一步比较前面介绍的不同TSR范式的模型。以前预测逻辑位置的方法缺乏这些范式之间的全面比较和分析。我们通过对照实验证明了LORE如何克服基于邻接和基于标记的方法的局限性。

  • 单元格的邻接性不足以表示表结构。以前的方法采用基于空间位置的启发式规则或图形优化来重建表。但是,要使预定义的部分与不同类型的表和注释的数据集兼容,需要进行繁琐的修改。此外,基于邻接的度量有时不能反映表结构的正确性,如下图所示。通过实验定量地验证了这一论点。

    • 在这里插入图片描述

    • 一个严重移位结构的例子。其邻接关系F-1为84%,逻辑定位精度为43%。

  • 我们将LORE的堆叠回归量的线性层转换为成对单元格特征的邻接分类层,并采用NCGM中的后处理来重建表。结果如下表所示。虽然这种改进的模型与基于邻接性的指标评估的最先进的基线取得了竞争结果,但从启发式规则获得的逻辑位置的准确性与LORE (Log.范式)相比明显降低。范式),特别是WTW,它包含更多的跨越单元格和扭曲。

    • 在这里插入图片描述

    • 邻接性和逻辑位置范式的评价结果。A-all和A-sp是指所有单元格和跨单元格(多于一行/列)的逻辑位置精度。Sci-c为SciTSR-comp。

  • 基于标记序列的模型利用图像编码器和序列解码器来预测标签序列。由于标记语言有大量的控制序列格式化样式,它们可以被视为标签中的噪音,阻碍模型训练。它需要更多的训练样本和计算成本。如下表所示,EDD模型在PubTabNet数据集上的训练样本数量是LORE的十倍以上。此外,由于顺序解码模式,推理过程相当耗时(见下表),而其他范式的模型并行计算每个单元。从PubTabNet的验证集计算平均推理时间,将两种模型的图像大小调整为1280 × 1280。

    • 在这里插入图片描述

    • LORE与标记生成模型EDD在训练样本和平均推理时间方面的比较。

Further Analysis on Cascade Regressors

  • 我们通过实验研究了级联框架对逻辑坐标预测的影响。在下图中,我们可视化了两个单元的级联/单回归量的最后一个编码器层的注意图,即LORE的消融研究表中的模型1d和2b。在级联框架中,下图 (a)中的基本回归器关注标题单元格(上方或左侧)以计算逻辑位置。而下图 (b)中的堆叠回归器更关注周围的单元格,以发现逻辑位置之间更精细的依赖关系,并确保预测受自然约束,这符合人类在设计表时的直觉。然而,下图 ©中的非级联回归量只能起到与基回归量类似的作用,忽略了预测逻辑位置的重要信息。
    • 在这里插入图片描述

    • 两个表格单元格的级联和非级联回归中自注意权重的可视化。文本蒙版表示表格单元格,为了清晰起见,只显示前20个权重。

Computational Analysis

  • 我们在下表中总结了LORE的模型大小和推理操作,输入图像为1024 × 1024,单元格数为32。我们观察到,LORE的复杂度与具有相同主干的基于关键点的检测器处于相同的水平,显示了LORE的效率。
    • 在这里插入图片描述

    • 计算分析。参数数量的单位是百万,浮点数的单位是千兆。

Conclusions

  • 总之,我们提出了LORE,这是一个TSR框架,可以有效地从输入图像中回归表格单元格的空间位置和逻辑位置。此外,它通过使用级联回归器以及细胞间和细胞内监督来建模逻辑位置之间的依赖关系和约束。LORE可以直接执行并获得竞争结果,无需繁琐的后处理或顺序解码策略。实验表明,LORE在各种指标下都优于现有的TSR方法,克服了以往TSR范式的局限性。
  • 表格结构识别,即给定一张图片,检测出图中单元格的物理坐标(四个顶点)以及逻辑坐标(行号列号)。在无线表格中,单元格的物理坐标使用表格内文字的外接框。
    格的空间位置和逻辑位置。此外,它通过使用级联回归器以及细胞间和细胞内监督来建模逻辑位置之间的依赖关系和约束。LORE可以直接执行并获得竞争结果,无需繁琐的后处理或顺序解码策略。实验表明,LORE在各种指标下都优于现有的TSR方法,克服了以往TSR范式的局限性。
  • 表格结构识别,即给定一张图片,检测出图中单元格的物理坐标(四个顶点)以及逻辑坐标(行号列号)。在无线表格中,单元格的物理坐标使用表格内文字的外接框。
  • 还可以将表格结构定义为一棵树,提出了一种基于优化方法设计的表结构理解算法。该算法通过对训练集中 的几何分布进行学习来优化参数,得到表格的结构。 同样使用树结构定义表格结构的还有Ishitani等人 (2005), 其使用了DOM (Document Object Model) 树来表示表格,从表格的输入图像中提取单元格特 征。然后对每个单元格进行分类,识别出不规则的 表格,并对其进行修改以形成规则的单元格排布。国内的表格结构识别研究起步较晚,因此传统的启发式方法和机器学习方法较少。
  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值