文档图像中页面对象检测的注意机制研究-Investigating Attention Mechanism for Page Object Detection in Document Images

原论文链 Applied Sciences | Free Full-Text | Investigating Attention Mechanism for Page Object Detection in Document Images (mdpi.com)原论文链

摘要：

由于不同的文档布局和不同的页面对象，扫描文档图像中的页面对象检测是一项复杂的任务。在过去，基于光学字符识别（OCR）的传统方法已被用于提取文本信息。然而，这些方法无法理解复杂的页面对象，如表和图。本文讨论了图形对象的定位问题和分类，这些图形对象直观地概括了文档中的重要信息。此外，这项工作还研究了在不同的对象检测网络中引入注意力机制以对扫描的文档图像执行页面对象检测的益处。该模型使用名为Detectron2的基于Pytorch的框架设计。可以在DocBank、PublayNet和IIIT-AR-13K等公开可用数据集上对提议的管道进行端到端优化和全面评估。所获得的结果反映了将注意力机制用于文档中页面对象检测的有效性。

1.引言

在数字时代，丰富、信息丰富的文件大量涌入。出版物的数量与日俱增，导致大量数据可供分析[1]。因此，从文档中提取信息的需求急剧增加。现代基于规则的方法[2]在提取文本方面已经有效了一段时间。然而，这些方法具有某些缺点，例如无法捕获源对象（例如表）的结构，或无法处理布局变化。随着深度学习时代的到来，现代数据驱动系统克服了这些缺点[3]。它们弥补了传统文档检测和分析系统与稳健文档检测和系统之间的差距。除了可以使用高效的基于OCR的系统解析的文本信息[4]外，文档还包含图形项目，如表格、图形或公式，这些项目以图形方式概括了讨论中主题的各个方面。因此，这些图形对象的处理引起了研究界的关注。

一般来说，页面对象检测的问题已经在以前的工作中得到了解决，如[5–9]。遵循类似于[10，11]的通用对象检测管道来定位不同类型的对象，即方程、表格和图形，它们构成了文档中存在的图形对象的大部分。在这些研究中观察到的性能表明，需要像ResNet-152[12]这样的深层主干来稳健地定位这些对象。因此，需要一个具有深度架构的模型来处理图形对象的固有复杂结构以及它们之间的相似性。表和图是图形对象的几个这样的例子。为了在不损害对象检测的鲁棒性的情况下减少主干中的深度，可以在特征提取阶段之后使用自关注机制。

当Bahdanau等人[13]首次将注意力机制纳入Kalchbrener等人[14]、Luong等人[15]和Cho等人[16]最初提出的序列对序列（seq2seq）模型时，注意力机制变得广泛流行。直到2017年，Vaswani等人引入Transformer[17]，自我关注机制才被广泛采用。从那时起，自我注意机制被用于许多深度学习方法中。其流行背后的原因是其固有的本质，即通过提供对特征的重要区域的显著性来向模型提供语义信息。因此，它们现在是自然语言处理（NLP）和计算机视觉（CV）领域技术的组成部分。由微软股份有限公司开发的DynamicHead[18]是本研究中使用的注意力机制的一种变体，它结合了一组注意力模块，如规模意识、任务意识和空间意识。

关注机制的包含允许模型关注所有尺度上的输入图像，并在空间位置上的相似对象之间进行关联。它还同时关注不同的任务，如检测和分割。我们在基准数据集（即DocBank[19]）上对模型进行端到端训练。该数据集包含500000张带注释的图像，训练集、测试集和验证集分别有400000张、50000张和50000张图像。本文的主要目标是深入了解通过将注意力机制纳入基础深度学习管道而获得的改进。为了突出对比的差异，在所有实验中，将诸如ResNet-50[12]之类的轻量级主干与标准物体检测头（例如Faster RCNN[10]）结合作为基线模型。残余块的好处是处理消失和爆炸的梯度，同时包含相对较少的参数，这使得ResNet-50成为基线主干的理想候选。然后将注意力机制纳入基线配置中，以便能够在具有和不具有注意力模块的模型之间进行直接比较。此外，实验中使用了更多的主干和检测头，以展示更强主干的性能，第5节将对此进行详细讨论。

由于DocBank中标签的分布多样，包括节、标题和引用等罕见对象，以及更常见的注释，即表、图和段落，因此进行了一项全面的研究，以确定获得最大关注的标签，以及模型学习很少出现标签表示的能力。为了公平比较，使用数据集PublayNet[20]和IIIT-AR-13K[21]对整个管道进行了进一步训练和测试，同样包含注释文档图像。每个数据集的样本如图1所示。第5节详细概述了所进行实验的结果。为了进一步检查DynamicHead的效果，一种称为稀疏RCNN[22]的稀疏方法被用作对象检测头，以及一种从密集到稀疏的头，例如Faster RCNN。

选择稀疏头部的动机在于，与自然图像相比，文档图像包含相当稀疏的对象数量。对象的数量可以是密集的，在不同的尺度上，并且位于意想不到的位置。负责人利用提案框上的反向传播，即，在培训期间学习提案框，这完全避免了使用区域提案网络、锚点放置以及任何后处理的需要，例如非最大抑制。此外，在训练过程中学习提案特征，捕获关于对象的语义信息，帮助头部学习其表示，并基于对对象特征的理解进行概括。因此，该负责人调整其建议以与数据集最佳匹配。在第5节中，使用上述检测头对每个数据集的基线和我们的模型进行了比较。

以下章节组织如下：第2节简要介绍了图像处理注意机制的出现及其发展，第3节介绍了模型管道背后的主要方法，以及DynamicHead的技术细节，随后分别是第4-6节中的实验、结果和讨论以及结论和未来工作。

标图1。在公开可用的基准数据集（即DocBank[19]、PublayNet[20]和IIIT-AR-13K[21]）上，通过所提出的模型获得的检测的可视化表示。颜色用作视觉嵌入，以区分各种检测到的对象。蓝色、橙色、绿色和黑色分别代表段落、标题、数字和表格。第一、第二和第三行分别表示DocBank、IIIT-AR-13K和PublayNet的样本题

2.相关工作

2.1.页面对象检测

在最初的日子里，传统的计算机视觉技术被用于文档来检测图形对象。过去的经典方法采用了图像处理技术，如二值化和链接成分分析。相反，基于深度学习的方法利用卷积神经网络（CNN）作为骨干，从文档图像中提取特征[23，24]。

2.1.1.传统方法

为了实现表检测，早期的方法为文档中的表建立了特定的底层结构。Tupaj等人[25]利用光学字符识别（OCR）提取表格信息。该算法试图通过评估关键字和空格来确定可能的表区域。这种策略的主要缺点是它完全依赖于关于表结构的假设和所用关键字的收集。在表格分析领域，Wang等人[26]引入了一种新方法。为了检测表格行，它使用连续单词之间的距离。然后，通过将相邻的垂直行与连续的水平字分组来提出表实体候选。然而，基本前提是一个表最多只能有两列。因此，使用此方法可以创建三种不同的布局（单列、双列和混合列）。这种方法的缺点是应用于少量设计的表。

2.1.2.深度学习方法

就深度学习方法而言，Saha等人[27]通过构建GOD框架来检测表格和图形，对页面对象检测进行了初步尝试。该模型在大量文档图像的语料库上训练，并获得能够以良好的精度区分图形对象的训练模型。此外，在传统的基于规则的技术和GOD框架之间进行了比较，以证明深度学习方法在识别和定位文档图像方面的有效性，而无需任何预先假设。此外，CasTabDetectoRS网络[6]通过结合级联网络来识别表，进一步完成了任务。它还引入了递归金字塔网络（R.P.N.）的概念，这是众所周知的区域建议网络[10]的扩展，以及可切换的阿特罗斯卷积[28]。总之，它对广泛的数据集进行了实验，并在检测表方面优于大多数模型。

2019年，Huang等人[29]撰写了一种基于YOLO的表检测方法。自然图像和图形对象之间的对比差异在他们的工作中得到了解决。采用锚优化策略来识别被优化以适合表格的锚尺寸。这使模型能够找到表的准确位置，从而使其更加健壮。Ma等人[30]最近的研究引入了RobusTabNet来定位表，并进一步提出了一种通过检测分隔线来识别表结构的拆分和合并方法。这使得能够在任何方向（例如扭曲方向）上可靠地识别表格。他们还引入了一个名为CornerNet的新区域提案网络，为检测头生成高质量的表格提案。

2.2.注意机制

自从注意机制出现以来，许多研究人员发现了注意在计算机视觉中的应用。基于视觉的注意力的进步可以分为四个阶段。第一阶段通过递归神经网络（RNN）引入基于强化学习的注意力[31]。主要思想是通过移动的局部窗口来估计最优的局部特征。当移动窗口选择了一个重要功能时，模型通过奖励来学习该过程。在第二阶段，引入了第一个全球注意力机制[32]。这项工作将仿射变换应用于特征，以将特征转换为一致的方向，从而消除模型对相似特征的混淆。在第三阶段，引入了基于通道的注意力[33]，其中挤压和激励过程为特征的通道分配权重。该过程调整特征的显著性，以适应模型所解决的问题。最后，第四阶段引入自我关注[34]。其主要思想是通过其全球背景来判断任何本地特征。

本文讨论的方法遵循第四阶段的概念。该方法试图通过计算特征地图的所有位置处的所有特征的加权和来计算位置处的激活，从而在长范围内捕获相关性。给定位置处的特征图的非局部相关性计算的一般思想是应用给定位置处局部特征与其他空间位置处的局部特征的成对乘法。因此，获得了自我关注，允许网络从图像的不同区域学习。

3.方法

本节介绍了在现有模型的帮助下进行页面对象检测的统一框架[10，18，22]。总体架构如图2所示。整个模型基于Detectron2[35]，这是一个基于Pytorch的深度学习框架。由于其易于集成、动态主干连接和专用的基于文本的配置格式来控制管道，Detectron2在提供构建模型的结构化方式方面发挥着重要作用。作为流水线的第一步，标准主干，例如ResNet[12]、Swin Transformer[36]或ConvNeXt[37]，用于从输入中提取语义特征。这被称为自下而上的途径。从主干阶段自下而上获得的特征图被馈送到特征金字塔网络（FPN）[38]，形成主干的自上而下路径。提取不同尺度的最终特征P＝ ${P_{i}}_{i=2}^{5}$ （其中Pi表示从自上而下路径的块i中提取的特征），并将其馈送到自我关注机制，即DynamicHead，其细节在第3.1节中讨论。

图2:系统设计：使用注意力机制检测页面对象的管道。它由一个主干（即ResNet-50、ConvNeXt或Swin Transformer）组成，作为特征建议网络（FPN）的自下而上的特征提取器。FPN的自上而下路径在四个区块中执行反褶积，每个区块具有不同的规模。然后，来自FPN不同块的多尺度特征被馈送到关注模块DynamicHead。DynamicHead模块通过规模感知、空间感知和任务感知子模块依次处理馈送的特征。为了获得最佳关注，DynamicHead模块会多次（即五次）应用于功能。从DynamicHead中的每个子模块提取的渐变图由蓝色箭头指示。最后，将特征传递给检测头（例如，更快的RCNN或稀疏的RCNN）以获得边界框预测。

3.1.DynamicHead

DynamicHead[18]，在本文中称为DyHead，是一种统一的注意力机制，包括三个不同的注意力，每个注意力集中在特征的不同方面。由于文档图像包含不同比例的类似对象，例如段落、表格、图形和引用，DynamicHead帮助整个模型转换不同比例和不同空间位置的对象的权重。

为了将连接的特征集馈送到DynamicHead中，通过在每个特征级别上使用上采样或下采样，将FPN特征调整为中值比例。连接的特征由R表示。这些特征然后被馈送到一系列块中，这些块按所述顺序包括尺度感知、空间感知和任务感知注意。

3.1.1.比例感知注意

特征R作为此子模块的输入。它通过计算通过在所有尺度上解释标准特征而获得的组合特征来执行注意力，最终激活关键区域。如[18]所述，应用注意力的方程式由方程式（1）给出，其中H、W和C分别为高度、宽度和通道，f为线性函数，σ为硬S形函数[39]。通过经由点积组合Attnscale（R）和输入特征R来获得最终特征Rscale，如等式（2）所示：

3.1.2.空间感知注意

该子模块将Rscale作为输入，并通过激活Rscale的区域来生成输出特征Rspatial，其中在特征中的不同空间位置存在相似的对象。这允许检测头聚焦于输入图像的各个位置，以鲁棒地检测它们。注意事项如下：

在等式（3）中，如最初在[18]中引入的，L是Rscale的级别数，S是通过对特征应用可变形卷积[40]以使特征稀疏而获得的样本数，offset（）是聚焦于特征的重要区域的空间偏移函数，αj表示样本j处的空间特征，η表示注意力应用于特征的所有通道，∆j是通过反向传播学习的提高注意力的标量。注意力应用于所有空间样本，然后应用于所有级别。等式（4）给出的最终特征Rspatial由Attnspatial（Rscale）和Rscale的点积获得。

3.1.3任务意识注意

这是最后一个模块，它主动学习从功能中激活所需的通道，专门针对要执行的任务，如边界框回归和分割。注意力最初在[18]中陈述，并由本文中的等式（5）给出，其中Rc是特征的第c个通道，A1、A2、B1和B2是控制激活权重和阈值的超函数。超函数是通过对特征维度进行全局平均池化以降维，并应用移位的S形函数（范围：[−1，1]）来实现的。与空间和尺度感知子模块类似，由等式（6）给出的最终特征Rtask由Attntask（Rspatial）和Rspatial的点积获得：

最后一步是按照Attnscale、Attnspatial和Attntask的顺序连接三个机制，这三个机制组成一个DynamicHead块。这些块可以在FPN之后堆叠在一起，以提高整体注意力效率。在通过一系列DynamicHead块之后获得的输出特征映射被传递到对象检测头。第5节讨论了DynamicHead的有效性，其中使用了各种检测头。

3.2.检测头

从DynamicHead块获得的特征映射被传递到对象检测头。该模型主要使用两种对象检测头，即Faster-RCNN和Sparse-RCNN。

3.2.1.Faster-RCNN

Faster-RCNN从DyHead模块接收功能。图3给出了Faster RCNN的详细流程。由于特征的多尺度特性，每个特征尺度一个锚级别被分配给特征，而不是每个特征尺度多个锚级别，如最初的Faster RCNN[10]实现中所使用的。准确地说，从DyHead块接收的五个不同尺度的特征按给定顺序被分配到区域32、64、128和256的锚。此外，在每个锚点级别使用多个纵横比，即（0.5、1.0、2.0）。最后，使用ROI池将特征对齐为相等大小，并传递给回归器和分类器进行预测。

图3。使用Faster RCNN进行页面对象检测的详细流程图。传递给更快的RCNN负责人的功能最初通过区域提案网络（RPN）生成不同维度的提案框。然后通过ROI池将它们对齐，以获得固定大小的特征。然后将这些特征作为完全连接层（FC）传递。最后，对检测到的对象进行分类并计算边界框。

3.2.2. Sparse-RCNN

Sparse-RCNN头执行ROI对齐操作，以在初始提案框集（随机初始化）的帮助下从DyHead块提供的特征中获得相等大小的特征。图4描述了Sparse-RCNN遵循的管道。Sparse-RCNN为本研究提供的建议数量为300个。在训练过程中，通过学习所呈现对象的语义来学习提案特征。因此，学习到的建议有助于检测头定制ROI框，并降低后处理技术（如非最大抑制）的计算成本。

Sparse-RCNN的迭代头采用ROI对齐的特征，并独立地集成学习的提案特征，即，所有k∈N的ROI_boxk和proposal_featurek被集成，其中N表示提案框的数量。最后，集成的特征图通过完全连接层（FC）传递，并传递给分类器和盒预测器。第4节讨论了所进行实验的详细概述。

图4。使用Sparse-RCNN进行页面对象检测的详细流程图。Sparse-RCNN从DyHead获取特征，并学习和提出特征的最佳兴趣区域（ROI）框，而不是区域建议网络（RPN）。这些特征与潜在建议特征连接起来，作为FC层传递，以预测和分类对象。

4.实验

4.1实验设置

在本节中，详细讨论了使用不同数据集的先前阐述的模型进行的各种实验。该模型在DocBank、IIIT-AR-13K和PublayNet上进行了训练和测试。图像尺寸在数据集内部和数据集之间略有不同。为了解决这个问题，所有图像都通过将最短边调整为固定的边长度来修改，同时保持纵横比。该模型使用名为Detectron2的基于Pytorch的框架实现，并在八个RTX3090 GPU上进行训练。

4.2.评估指标

使用以下指标评估模型性能：平均精度（AP）、精度、召回率和F1得分。给出了不同IoU阈值的结果，以公平地评估模型的性能。

4.3.数据集详细信息

本文所示实验选择了三个公开可用的数据集，即DocBank、PublayNet和IIIT-AR-13K。选择这些数据集主要是因为它们关注文档。由于这些数据集相对较新，因此本文希望提供对数据集、其分布及其在页面对象检测中的应用的深入了解。表1给出了每个数据集中数据对象的分布。

表1。用于实验的数据集的数据分布。这些数据集分为训练集和测试集，主要类别通常出现在文档中，涵盖训练集和测试集。

此外，实验结果分为两类。第一类，在第5节中详述，包含通过在不同模型变量上训练原始数据集获得的结果。第二类包含在每个数据集的子集上训练的模型的结果，包含三个数据集（即表、图和段落）的公共类。第二类旨在向读者传达关于跨数据集检测能力的信息，第5.4节对此进行了详细说明。

5.结果和讨论

本节讨论使用各种主干和物体检测头训练的模型的实验结果。标准度量，即范围为[0.5，0.95]的IoU（11）级别的精度（7）、召回（8）、F1分数（9）和AP（10），用于比较基线和拟定管道。所有模型都在RTX3090 GPU上针对1x计划（12个时期）进行训练，批量大小为8。实验中使用了轻量级主干，如ResNet-50或ConvNeXt和Swin Transformer的微型版本。选择轻量级骨干的原因是为了坚持本文的目标，以最小的骨干展示注意力机制的重要性。此外，ConvNeXt和Swin Transformers的微型版本包含与ResNet-50相似数量的参数，同时提供了比提取的特征更显著的额外优势。对于本节中讨论的所有实验，基线模型被选择为更快的RCNN，ResNet-50是坚持本文目标的骨干。

5.1.DocBank

表2显示了从基线模型和基于注意力的模型获得的实验结果。所显示的所有结果都是为边界框计算的，以便与基线模型进行比较。据我所知，这项工作是第一次在DocBank上计算度量。因此，无法与现有文献进行比较。

表2。使用具有不同主干的Faster RCNN对DocBank进行性能评估。本文还介绍了使用ResNet-50骨干的稀疏RCNN的结果。对于faster RCNN+ResNet50，加入注意力机制将mAP提高5.18。FasterRCNN+DyHead+ConvNeXt（微小）组合大大优于基线模型和包含DyHead的其他模型变体。

ConvNeXt和DyHead与标准的Faster RCNN在DocBank数据集上提供了我们所有实验中的最佳性能。更快的RCNN+ConvNeXt+DyHead模型是从头开始训练的，因为与Swin Transformers或ResNet-50相比，ConvNeXt是一个相对较新的主干，包含在ImageNet上训练的公开可用的预训练权重[44]。此外，表3显示了使用最佳模型，即Faster RCNN+ConvNeXt+DyHead，0.5至0.9的IoU水平的F1得分、精度和召回率。该模型在IoU水平为0.5时表现最好，并且由于误报的减少，随着IoU的增加，性能逐渐下降。图5显示了基线模型、Faster RCNN+ResNet-50+DyHead和Faster RCNN+ConvNeXt+DyHead变体在检测方面的视觉改进。

表3。DocBank上Faster RCNN+ConvNeXt+DyHead（bbox）的模型性能结果。

图5。DocBank[19]的检测结果是从基线、Faster RCNN+ResNet50+DyHead和Faster RCNN+ConvNeXt+DyHead模型获得的。边界框颜色红色、绿色和蓝色分别表示方程式、图形和段落。（a）从使用ResNet-50作为主干的标准Faster RCNN模型中获得的样本未经注意。（b）当将注意力机制纳入（a）中使用的管道中时获得的相应改进样本。（c）将ResNet-50替换为ConvNeXt时获得的样本，并将注意力添加到基线模型的管道中。在（b）中，仅仅通过增加关注，检测到的对象的错误分类水平和边界框精度就显著提高了。结果在（c）中进一步改进，其中嵌套检测被丢弃。

与基线相比，DynamicHead模块明显改进了图形对象的检测。此外，DynamicHead与ConvNeXt相结合，在处理FasterRCNN+ResNet-50+DyHead变体中发现的嵌套检测时表现最好。尽管执行的检测是足够的，但DocBank数据集注释中的某些差异会略微影响模型的性能。图6中显示了一些示例，例如，图被注释为段落，注释中包含嵌套注释。因此，这些差异阻碍了模型的表征学习，导致错误分类。

图6。从DocBank[19]数据集中选择的样本表明，很少有注释被错误分类或存在嵌套注释。（a）基础事实中存在太多嵌套注释，这会对模型的预测能力产生负面影响。（b）注释中出现的异常，例如标记为方程式的方程式编号（深绿色），导致模型错误分类

5.2. PublayNet

在PublayNet的情况下，所提出的架构优于基线结果。表4显示了使用架构的不同变体的测试结果。DynamicHead的加入使基线mAP评分提高了1.65。此外，ConvNeXt作为骨干进一步将分数提高了4.22。

表4。使用具有不同主干的Faster RCNN对PublayNet进行性能评估。本文还介绍了使用ResNet-50骨干的稀疏RCNN的结果。对于更快的RCNN+ResNet-50，注意力机制有轻微改善。然而，该模型在很大程度上得益于ConvNeXt主干，并辅以注意机制以提高特征显著性。

ConvNeXt和DyHead与标准Faster RCNN的组合超过了基线分数。表5显示了该模型变体的IoU水平为0.5至0.9的F1得分、精度和召回值。图7显示了使用模型的不同变体在PublayNet样本上获得的检测结果。乍一看，DynamicHead的使用显然提高了图形对象的本地化。与第5节中的结果类似。更快的RCNN+ConvNeXt+DyHead在所有变体中表现最好。

与DocBank相比，该模型在PublayNet上的性能更好。数据集包含不同的类，这些类允许模型谨慎地解释它们的不同特征。如表5所示，不同IoU水平下的F1得分也传达了模型即使在最高IoU水平（即0.9）下检测对象的鲁棒性。此外，由于训练集和测试集中都存在高质量的注释，因此模型不会出现混淆。

表5。ConvNeXt+DyHead骨干网与PublayNet上的fasterRCNN（bbox）的模型性能结果。

图7。PublayNet的基线检测结果、Faster RCNN+ResNet-50+DyHead和Faster RCNN+ConvNeXt+DyHead模型。蓝色、黑色和绿色分别代表段落、表格和图形。（a）使用ResNet-50作为主干，使用Faster RCNN从基线模型中获得的样本。（b）通过将注意力机制获得的样本纳入基线模型的管道中。（c）通过Faster RCNN+ConvNeXt+DyHead模型进行检测。通过包含注意机制，检测是干净和准确的。此外，DyHead和ConvNeXt证明，与嵌套检测较少的同类产品相比，它们能够更好地检测对象。

5.3. IIIT-AR-13K

IIIT-AR-13K数据集最好地传达了注意力机制的重要性，因为基线模型和基于注意力的模型之间的性能差异很大。如表6所示，当存在具有不同标签的相似物体时，基线模型难以解释特征，即，数字、签名和自然图像，而与基线模型相比，基于注意力的架构提高了模型的定位能力。结果包含使用不同架构变体进行的测试的基于标签的估计mAP得分和平均mAP得分。没有提供与现有方法的比较，因为数据集仅用于其他文章中的表检测，与我们在所有类上的实验不同。

表6。使用具有不同主干的Faster RCNN对IIIT-AR-13K进行性能评估。本文还介绍了使用ResNet-50骨干的稀疏RCNN的结果。基线模型无法实现此数据集的鲁棒性。然而，与基线相比，DynamicHead的加入使mAP评分提高了11.18，证实了注意力机制的显著改善。ConvNeXt主干进一步改善了结果，mAP评分约为基线评分的两倍，即33.30至69.74。

ConvNeXt变体在我们模型的所有组合中表现最好，其输出如图8所示。基线模型与Faster RCNN+ResNet-50+DyHead变体之间存在对比差异。然而，FasterRCNN+ResNet-50+DyHead和FasterRCNN+ConvNeXt+DyHead模型之间的检测结果相似。然而，当比较颗粒细节时，ConvNeXt变体更准确地计算边界框。表7显示了根据RCNN+ConvNeXt+DyHead模型计算的IoU水平值为0.5至0.9的F1得分、精度和召回率。可以观察到，当地面真实值和计算的边界框之间预期有高水平的重叠时，即IoU水平为0.8和0.9时，该模型不足以定位对象。

图8。从基线获得的IIIT-AR-13K的检测结果，Faster RCNN+ResNet50+DyHead和Faster RCNN+ConvNeXt+DyHead。黑色表示子图中的表格。（a）从基线模型中获得的样本。（b）在基线模型中，通过将注意力机制纳入管道获得的相应样本。（c） Faster RCNN+ConvNeXt+DyHead变体对样本的检测。与基线相比，基于注意力机制的结果没有错误检测表的迹象。

表7。IIIT-AR-13K上具有Faster RCNN（bbox）的ConvNeXt+DyHead主干的模型性能结果。

5.4.跨数据集评估

为了便于跨数据集比较，将每个数据集简化为所有三个数据集（即表、图和段落）中常见的标签。这里采用了Leave One Out策略，其中模型在一个数据集上进行训练，并在其他两个数据集进行测试。这样做是为了评估这些模型的跨数据集性能。交叉验证的目的是评估学习表示的有效性以及模型在不同数据分布中的预测能力的泛化。本评估中使用了Faster RCNN+ConvNeXt+DyHead组合，因为已证明其性能始终优于其他型号变体。比较指标如表8所示。

表8。在DocBank、PublayNet和IIITAR-13K上使用Leave One Out策略的交叉验证结果。所有结果都是从具有Faster RCNN+ConvNeXt+DyHead的模型中获得的。DocBank和PublayNet数据之间的相似性显然有助于模型检测性能更好的对象，而不是IIIT-AR-13K。此外，由于DocBank中的异常，与PublayNet中的干净注释相比，使用PublayNet进行的培训和使用DocBank进行的测试产生的结果与相反的场景（即在DocBank上的培训和在PublayNet上的测试）相比较差。

可以观察到，使用Leave One Out策略，模型的性能会下降。例如，如表4所示，Faster RCNN+ConvNeXt+DyHead在其自己的测试集中得分为94.22 mAP，但在其他数据集中得分最高为50.45 mAP。这表明模型学习的特征高度依赖于数据分布，数据分布的任何微小变化都需要重新学习目标分布。然而，PublayNet获得了最高的交叉验证分数，F1分数为77%。有趣的是，由于IIIT-AR-13K中图形对象的视觉表示存在差异，所有训练模型都未能在IIIT-AR-13 K上进行推广。图9显示了IIIT-AR-13K样本与其他两个数据集之间的差异。

图9。DocBank[19]和PublayNet[20]v/s IIITAR-13K[21]中存在不同的视觉表示。第1、2和3列分别代表DocBank、PublayNet和IIIT-AR-13K的样本。蓝色和绿色分别代表段落和数字。数据分布的重要区别在于数据集的布局。PublayNet和DocBank中的图形和段落是相同的，而在IIIT-AR-13K中，样本遵循不同的布局、字体样式和文档结构。

5.5.计算分析

在本节中，讨论了有关各种模型属性及其相应运行时复杂性的详细信息。由于本文的主要数据集仍然是DocBank，表9中的所有数据都是针对同一数据集计算的。

表9。我们的算法在各种配置下的计算复杂性。基线配置由ResNet-50骨干网和作为头部的Faster RCNN组成。所有其他人都使用DyHead作为注意力机制，以及主干和头部。由于额外的参数，DyHead模块的添加增加了整个模型运行时的开销。一个有趣的观察是Sparse RCNN与DyHead的运行时。由于了解到的建议，该模型比具有类似配置的同类模型运行得更快，即faster RCNN+ResNet-50+DyHead。

6.结论和未来工作

在本文中，我们通过结合对象检测世界中存在的标准模块，提出了一种对象检测流水线，以证明注意力机制在页面对象检测上的有效性。该模型使用三个数据集进行训练，这些数据集具有高质量的注释和大量的图像语料库，以便模型在不过度拟合的情况下充分学习。引入了一个新的主干ConvNeXt来提高模型学习的质量，这表明右主干和注意力机制的结合可以大大提高对象检测。

DocBank和PublayNet共享相似的视觉表示，而IIIT-AR13K图像包含不同的视觉嵌入。因此，本文中提出的模型在DocBank或PublayNet上训练，从未遇到IIIT-AR-13K中发现的图形对象，并且未能对其进行适当的分类和分割。对于DocBank数据集，模型性能显示了对数据分布的充分理解。在某些领域，模型在区分相同的图形对象（如段落和标题）时会遇到异常值。总体而言，由于不同的类标签和干净的注释，所提出的基于注意力的模型在PublayNet数据集中表现最好。该模型还得益于庞大的训练集。最后，使用IIIT-AR-13K，与基线模型相比，模型性能有了很大的飞跃，尽管与其他两个数据集相比，视觉嵌入非常模糊。数据集之间还进行了交叉验证实验。该实验基于包含所有三个数据集中的公共类标签的简化数据集来评估模型的泛化。在缩减的DocBank集合上训练的模型具有非常好的通用性，如表8所示。总体而言，DynamicHead模块在提供文档重要区域的显著性方面非常有用，有助于提高模型的性能。

为了更好地理解注意力的重要性，未来的方面是通过提取梯度并评估它们来评估输入图像上的激活。此外，由于文档的特定视觉特性，与复杂的自然图像相比，模型很容易过度拟合。为了避免这种情况，进一步增加数据集将有助于克服对异常值的敏感性问题，并帮助模型实现鲁棒性。未来的另一项任务将包括从数据集的注释中过滤异常，以避免向模型引入信息模糊性。

References

1. To, W.M.; Yu, B. Rise in higher education researchers and academic publications. Emerald Open Res. 2020, 2, 3. [CrossRef]

2. Smith, R. An Overview of the Tesseract OCR Engine. In Proceedings of the 9th International Conference on Document Analysis and Recognition (ICDAR 2007), Curitiba, Brazil, 23–26 September 2007; pp. 629–633. [CrossRef]

3. Vargas, R.; Mosavi, A.; Ruiz, R. Deep Learning: A Review. Adv. Intell. Syst. Comput. 2017, 5. [CrossRef]

4. Hashmi, K.A.; Ponnappa, R.B.; Bukhari, S.S.; Jenckel, M.; Dengel, A. Feedback learning: Automating the process of correcting and completing the extracted information. In Proceedings of the 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), Sydney , NSW, Australia, 22–25 September 2019; V olume 5, pp. 116–121.

5. Saha, R.; Mondal, A.; Jawahar, C.V . Graphical Object Detection in Document Images. In Proceedings of the 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney , Australia, 20–25 September 2019; pp. 51–58. [CrossRef]

6. Hashmi, K.A.; Pagani, A.; Liwicki, M.; Stricker, D.; Afzal, M.Z. CasTabDetectoRS: Cascade Network for Table Detection in Document Images with Recursive Feature Pyramid and Switchable Atrous Convolution. J. Imaging 2021, 7, 214. [CrossRef]

7. Nazir, D.; Hashmi, K.A.; Pagani, A.; Liwicki, M.; Stricker, D.; Afzal, M.Z. HybridTabNet: Towards Better Table Detection in Scanned Document Images. Appl. Sci. 2021, 11, 8396. [CrossRef]

8. Hashmi, K.A.; Pagani, A.; Liwicki, M.; Stricker, D.; Afzal, M.Z. Cascade Network with Deformable Composite Backbone for Formula Detection in Scanned Document Images. Appl. Sci. 2021, 11, 7610. [CrossRef]

9. Antonacopoulos, A.; Clausner, C.; Papadopoulos, C.; Pletschacher, S. Historical document layout analysis competition. In Proceedings of the 2011 International Conference on Document Analysis and Recognition, Beijing, China, 18–21 September 2011; pp.1516–1520.

10. Ren, S.; He, K.; Girshick, R.B.; Sun, J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. arXiv 2015, arXiv:1506.01497.

11. He, K.; Gkioxari, G.; Dollár, P .; Girshick, R.B. Mask R-CNN. arXiv 2017, arXiv:1703.06870.

12. He, K.; Zhang, X.; Ren, S.; Sun, J. Deep Residual Learning for Image Recognition. arXiv 2015, arXiv:1512.03385.

13. Bahdanau, D.; Cho, K.; Bengio, Y . Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of the 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, 7–9 May 2015.

14. Kalchbrenner, N.; Blunsom, P . Recurrent Continuous Translation Models. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, Grand Hyatt Seattle, Seattle, WA, USA, 18–21 October 2013; pp. 1700–1709.

15. Luong, T.; Sutskever, I.; Le, Q.V .; Vinyals, O.; Zaremba, W. Addressing the Rare Word Problem in Neural Machine Translation.arXiv 2014, arXiv:1410.8206.

16. Cho, K.; van Merrienboer, B.; Gülçehre, Ç.; Bougares, F.; Schwenk, H.; Bengio, Y . Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. arXiv 2014, arXiv:1406.1078.

17. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, L.; Polosukhin, I. Attention Is All You Need.arXiv 2017, arXiv:1706.03762.

18. Dai, X.; Chen, Y .; Xiao, B.; Chen, D.; Liu, M.; Yuan, L.; Zhang, L. Dynamic Head: Unifying Object Detection Heads with Attentions.arXiv 2021, arXiv:2106.08322.

19. Li, M.; Xu, Y .; Cui, L.; Huang, S.; Wei, F.; Li, Z.; Zhou, M. DocBank: A Benchmark Dataset for Document Layout Analysis. arXiv 2020, arXiv:2006.01038.

20. Zhong, X.; Tang, J.; Jimeno-Yepes, A. PubLayNet: Largest dataset ever for document layout analysis. arXiv 2019, arXiv:1908.07836.

21. Mondal, A.; Lipps, P .; Jawahar, C.V . IIIT-AR-13K: A New Dataset for Graphical Object Detection in Documents. arXiv 2020, arXiv:2008.02569.

22. Sun, P .; Zhang, R.; Jiang, Y .; Kong, T.; Xu, C.; Zhan, W.; Tomizuka, M.; Li, L.; Yuan, Z.; Wang, C.; et al Sparse R-CNN: End-to-End Object Detection with Learnable Proposals. arXiv 2020, arXiv:2011.12450.

23. Bhatt, J.; Hashmi, K.A.; Afzal, M.Z.; Stricker, D. A survey of graphical page object detection with deep neural networks. Appl. Sci.2021, 11, 5344. [CrossRef]

24. Hashmi, K.A.; Liwicki, M.; Stricker, D.; Afzal, M.A.; Afzal, M.A.; Afzal, M.Z. Current Status and Performance Analysis of Table Recognition in Document Images with Deep Neural Networks. IEEE Access 2021, 9, 87663–87685. [CrossRef] 25. Tupaj, S.; Shi, Z.; Chang, C.H.; Alam, H. Extracting T abular Information from T ext Files; EECS Department, Tufts University: Medford, MA, USA, 1996.

26. Wang, Y .; Haralick, R.M.; Phillips, I.T. Automatic table ground truth generation and a background-analysis-based table structure extraction method. In Proceedings of the Sixth International Conference on Document Analysis and Recognition, Seattle, WA, USA, 13 September 2001; pp. 528–532.

27. Saha, R.; Mondal, A.; Jawahar, C.V . Graphical Object Detection in Document Images. arXiv 2020, arXiv:2008.10843.

28. Qiao, S.; Chen, L.C.; Yuille, A. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 20–25 June 2021; pp. 10213–10224.

29. Huang, Y .; Yan, Q.; Li, Y .; Chen, Y .; Wang, X.; Gao, L.; Tang, Z. A YOLO-Based Table Detection Method. In Proceedings of the 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney , NSW, Australia, 20–25 September 2019; pp. 813–818. [CrossRef] 30. Ma, C.; Lin, W.; Sun, L.; Huo, Q. Robust Table Detection and Structure Recognition from Heterogeneous Document Images. arXiv 2022, arXiv:2203.09056.

31. Mnih, V .; Heess, N.; Graves, A.; Kavukcuoglu, K. Recurrent Models of Visual Attention. arXiv 2014, arXiv:1406.6247.

32. Jaderberg, M.; Simonyan, K.; Zisserman, A.; Kavukcuoglu, K. Spatial Transformer Networks. arXiv 2015, arXiv:1506.02025.

33. Hu, J.; Shen, L.; Albanie, S.; Sun, G.; Wu, E. Squeeze-and-Excitation Networks. IEEE T rans. Pattern Anal. Mach. Intell. 2020, 42, 2011–2023. [CrossRef] [PubMed] 34. Wang, X.; Girshick, R.B.; Gupta, A.; He, K. Non-local Neural Networks. arXiv 2017, arXiv:1711.07971.

35. Wu, Y .; Kirillov , A.; Massa, F.; Lo, W.Y .; Girshick, R. Detectron2. 2019. Available online: https://github.com/facebookresearch/ detectron2 (accessed on 29 April 2022).

36. Liu, Z.; Lin, Y .; Cao, Y .; Hu, H.; Wei, Y .; Zhang, Z.; Lin, S.; Guo, B. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. arXiv 2021, arXiv:2103.14030.

37. Liu, Z.; Mao, H.; Wu, C.Y .; Feichtenhofer, C.; Darrell, T.; Xie, S. A ConvNet for the 2020s. arXiv 2022, arXiv:2201.03545.

38. Lin, T.; Dollár, P .; Girshick, R.B.; He, K.; Hariharan, B.; Belongie, S.J. Feature Pyramid Networks for Object Detection. arXiv 2016, arXiv:1612.03144.

39. Courbariaux, M.; Bengio, Y .; David, J. BinaryConnect: Training Deep Neural Networks with binary weights during propagations.

arXiv 2015, arXiv:1511.00363.

40. Dai, J.; Qi, H.; Xiong, Y .; Li, Y .; Zhang, G.; Hu, H.; Wei, Y . Deformable Convolutional Networks. arXiv 2017, arXiv:1703.06211.

41. Powers, D.M.W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv 2020, arXiv:2010.16061.

42. Zhang, E.; Zhang, Y . Average Precision. In Encyclopedia of Database Systems; Springer: Boston, MA, USA, 2009; pp. 192–193.[CrossRef]

43. Blaschko, M.B.; Lampert, C.H. Learning to Localize Objects with Structured Output Regression. In Computer Vision—ECCV 2008; Forsyth, D., Torr, P ., Zisserman, A., Eds.; Springer: Berlin/Heidelberg, Germany , 2008; pp. 2–15.

44. Deng, J.; Dong, W.; Socher, R.; Li, L.; Li, K.; Fei-Fei, L. ImageNet: A large-scale hierarchical image database. In Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), Miami, FL, USA, 20–25 June 2009; pp. 248–255. [CrossRef]