【论文笔记/翻译】文档布局分析：Visual Detection with Context for Document Layout Analysis-CSDN博客

文章介绍了一种结合上下文特征的视觉对象检测方法，用于精确分割科学文章的关键区域，提出了一种新颖的区域标记数据集，提升了文档布局检测的性能。实验结果显示，通过上下文信息，模型性能显著优于基线，处理速度快于传统文本处理技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Visual Detection with Context for Document Layout Analysis

作者信息
摘要
1、简介

作者信息

在这里插入图片描述

摘要

我们提出了 1) 一种正在进行的方法，使用增强了上下文特征的对象检测技术来直观地分割科学文章的关键区域，以及 2) 一个新颖的区域标记文章数据集。科学文献挖掘中的一个持续挑战是难以从格式化的 PDF 中持续提取高质量的文本。为了解决这个问题，我们采用对象检测技术 Faster R-CNN 进行文档布局检测，结合上下文信息，利用文章内容固有的本地化性质来提高区域检测性能。由于科学文章的高质量区域标签的可用性有限，我们还贡献了一个新颖的区域注释数据集，其第一个版本涵盖 9 个区域类别和 822 个文章页面。初步实验结果表明，通过结合上下文特征，平均精度比基线模型提高了 23.9%，处理速度比基于文本的技术快 14 倍。还讨论了正在进行的进一步改进工作。

1、简介

大规模挖掘科学文献以获取可自动处理的信息对于领域研究人员和数据科学家来说是一项有价值且备受追捧的技术。文章的大规模处理曾经主要局限于关键词搜索和引文爬行，而现代自然语言处理技术现在可以深入搜索具体和广泛的概念，探索关系，并自动从文本中提取有用的信息。

在这里插入图片描述
图 1：从 PDF 文章中提取文本通常是一个嘈杂的过程，因为 PDF 发布工具存在显着的不一致，以及期刊出版商和文档托管服务准备打印文档的编辑和重新发布性质。

然而，首先获取文章文本并不总是那么简单。尽管一些出版物以开放获取、机器可读格式（例如纯文本、HTML 或 XML）提供全文文章，但这远非常态。相反，许多科学记录仍保留在 PDF 文件中，自动处理起来更具挑战性。无论 PDF 是来自扫描页面（因此需要 OCR）还是从数字源材料发布，这一挑战仍然存在。尽管有一些工具可以自动从 PDF 中提取文本，但格式非常不一致。标准工具通常将页眉、页脚、表格和图形标题、页码和其他无关文本混合到要提取的主要文本中（Bast 和 Korzen，2017）。而且文本顺序并不总是能很好地保留（图 1）。如果提取文本是为了执行关键字搜索等简单任务，那么问题就不那么严重了。然而，更复杂的任务（例如命名实体识别）通常依赖于连续、清晰分段的文本才能成功处理。虽然手动清理和重新格式化文本可能是小型文档集的一种选择，但在处理较大的语料库时，这很快就变得不切实际。

为了促进从科学文章中大规模自动知识提取，本文提出了一种适用于文档布局检测任务的== Faster R-CNN ==对象检测模型，并添加了上下文特征。该方法直观地检测文章页面中的主要区域，并将其分类为一组标签，包括主体文本、表格、图形等（图 2）。为了训练和评估检测模型，创建了一个包含 100 篇区域注释科学文章的新数据集，总共 822 个标记页面。这项工作是一项持续的工作：正在扩展数据集，正在开发其他上下文功能，并正在进行进一步的评估。

在这里插入图片描述
图 2：真实区域标签示例，显示不同的日志样式。请注意，即使文本小得难以辨认，显着区域在视觉上也很明显（例如标题、摘要、图形标题等）。

2、相关工作

除了用于从 PDF 中提取文本的众多工具之外（Bast 和 Korzen（2017）提供了 14 种常见工具的定量评估），还有多种方法可以分析文档以确定其内容布局和/或提取文档信息特定类型。

CERMINE（Tkaczyk 等人，2015）和 OCR++（Singh 等人，2016）等系统从“原生数字”PDF 中提取原始或处理后的标记（例如使用 pdf2xml 等工具），并应用各种文本处理方法推断文档结构并将语义标签应用于文本块。这些方法可以是基于规则的（例如正则表达式和启发式）或基于机器学习的（例如 SVM 分类）。这些方法可以实现高质量的提取和标记。然而，它们依赖于提取的 PDF 源标记（并不总是可用，例如对于扫描的 PDF），仅适用于文本块（忽略表格和图形，这也可能很有价值），并且通常非常慢（每次 2 到 10 秒或更长时间）。文章）。网页的类似方法——例如 Cai 等人的方法。（2003）和宋等人。 (2004) – 还检查文档源（在本例中为页面 DOM）以构建表示以供进一步处理。

另外，基于视觉的文档布局分析技术往往侧重于文本分割（Tran 等人，2015）、（Chen 等人，2015a）、（Chen 等人，2015b）、（Garz 等人， 2016），特别是历史文献；埃斯肯纳齐等人。（2017）调查了数十种此类方法。 Lang 等人的研究与这项工作的目标更加一致。 (2018)，他们使用 HOG 特征和随机森林来识别报纸中的文本、图像、图表和表格，Oliveira 和 Viana (2017)，他们使用一维 CNN 来识别科学文章中的文本、图像和表格，最后是 Singh 等人等人。 (2018)，他们使用 LSTD 模型来识别多个领域中的各种可定制文本和图像类，结果好坏参半。

与以前的方法不同，==本文的方法旨在利用现代视觉对象检测方法中的上下文信息。==对于这项工作特别重要的是使用带有科学文章相关关键区域标签的高质量数据集。尽管本节中引用的一些作品发布了自己的自定义数据集，但事实证明这些数据集太细粒度、太粗略或太嘈杂，不适合在本工作中使用（参见第 4 节）。

3、视觉文档布局检测

采用现代视觉方法进行文档区域检测，旨在为每个文档页面中的感兴趣区域 (ROI) 生成带标签的边界框。尽管许多区域的文本内容可能对分类有用，但我们的仅视觉方法具有在任何语言中工作的优点，并且即使没有文本特征也可以产生令人印象深刻的性能（参见第 5 节）。需要明确的是：我们的方法根本不访问文档的源（既不访问嵌入的文本，也不访问底层的 PDF 标记），而是仅依赖于文档页面的 JPEG 渲染。

这项工作使用的baseline技术是非常成功的目标检测器 Faster R-CNN（Ren 等人，2015）——一种所谓的两阶段检测模型。该模型以图像作为输入，首先预测候选感兴趣区域（即可能包含对象的图像区域），然后将每个候选区域分类为一组预定义的对象类别之一。输出是一组边界框，用于识别图像中已识别的对象（例如人、汽车、狗等）。从算法上来说，Faster R-CNN 依赖于多个组件神经网络，特别是从深度卷积神经网络 ResNet-101（He et al., 2016）开始，对输入图像执行特征提取。然后将生成的特征图输入区域提议网络（生成候选对象边界框）和分类网络（为这些候选对象分配区域标签）。回归网络还可以微调 ROI 边界框参数以实现更好的拟合。图 3 显示了如何将该模型直接应用于检测文档页面图像中的显着区域的任务。

Faster R-CNN 等标准对象检测技术的一个重要方面是，它们仅使用感兴趣区域内的图像特征来标记该区域。这种方法有利于通用目标检测，因为目标可能位于照片或视频中的任何位置，并且即使当目标被其他目标裁剪或遮挡时也非常成功（Lin et al., 2014）。在文档布局检测中，要检测的“对象”通常是页面（实际上是一组收集的页面）结构良好的元素，因此包含上下文信息以确定区域的标签很有帮助。为此，我们的方法将内容作为文档布局检测，其中要检测的“对象”通常是页面（实际上是一组收集的页面）的结构良好的元素，包含上下文信息以确定一个区域的标签。为此，我们的方法结合了有关页面和 ROI 边界框的上下文信息，编码为模型分类和微调回归阶段的附加特征。

文档中候选 ROI 的位置、大小和页码是该区域真实标签的宝贵上下文线索。它们有助于消除视觉上相似的区域类的歧义，例如摘要、正文和图形标题（没有上下文，这些都简单地显示为独立的文本块）。此外，如果两个建议区域重叠，它们的大小和位置可以帮助确定哪个区域更有可能更接近真实文档区域。正在进行的工作正在探索其他上下文功能（参见第 6 节），但是首先选择这些功能是因为它们易于集成并且预期对检测性能有很大影响。

另一个重要的考虑因素是存在更新、更成功的检测模型，例如 YOLOv3（Redmon 和 Farhadi，2018）和 RetinaNet（Lin 等人，2017），它们使用单阶段检测范例。我们选择 Faster R-CNN 作为本次工作的基线模型的理由是，单独的区域提议和分类模型可以更轻松地从第一个模型中截取 ROI 维度，并将它们作为附加特征（以及页码）嵌入用于分类和边界框回归模型的输入。然而，我们确实将我们的结果与单阶段模型进行了比较，并打算进一步探索这些结果。

4、新型标记数据集

现有的科学文章区域标记数据集对于我们的视觉区域检测方法来说噪声太大。例如，使用完整的GROTOAP2数据集(Tkaczyk et al.， 2014)训练模型，在所有22个标签上产生了5.1%的平均精度(mAP)的最佳整体检测性能。关键问题是，许多区域过于细粒度(例如，表的每个单元格可能有自己的边界框标记为“table”)，许多区域被错误标记或不对齐。标记噪声是如此明显，以至于通过简单地过滤和仔细合并“正文内容”标签的边界框，单类检测性能显着提高到72% AP(高于未过滤标签的18%)。然而，标签清理过程非常耗时，而且这种改进不能推广到其他类。

因此，创建了一个新的数据集。我们将PDF文章渲染为JPEG图像集(使用ImageMagick包，72dpi)，并使用开源实用程序(Tzutalin, 2015)手动注释区域。该数据集的版本1包括从PMC开放获取集中采样的100篇科学文章的区域注释。该系列将在https://github上发布。com/cxsoto/article-regions，其中包括用于下载并将原始文章pdf呈现为图像的脚本，以及将注释转换为各种格式的脚本。默认格式为PASCAL VOC。注释中包含了9个带标签的区域类:

•标题：包括字幕(如果有的话)。

•作者：在可能的情况下，仅提供作者姓名(即没有隶属关系等)。

•抽象：在可能的情况下，只使用抽象文本。

•主体内容：所有主要文章文本，包括章节标题。在可能的情况下是连续的。

•图：任何有标记的数字(即没有期刊徽标等)。

•图标题。图形的说明文字。

•表。如果可能，只包括表格内容。包括相邻的注释或评论，如果短和表对齐。

•表格标题。主表格的标题以及部分表格后面的段落形式的表格注释。

•引用。完整的参考书目，不包括参考文献后的注释(如作者简介，期刊营销等)。

这些区域的边界框被创建为一致和紧密拟合，典型的填充为2-4像素。一般来说，边界框不会重叠。每篇文章的每一页都有单独的标签和处理。由于标注精度，每个图像的注释大约需要20到60秒，具体取决于内容。然而，由于这个过程不涉及专业知识，它可以很容易地外包（crowd-sourced）。

对于数据集的版本2，我们打算包括等式、子图和作者关系的标签。它预计将涵盖来自不同来源的大约1000篇文章，包括来自arXiv和类似知识库的预印本。

5、实施与实验

使用第4节中描述的新型标记数据集，使用标准Faster R-CNN实现训练基线模型(Yang et al.， 2017)。该模型使用单个NVIDIA P100 GPU在600张图像上进行30个epoch的训练，并在剩余的222张图像上进行5个随机会话的测试，使用在ImageNet上预训练的ResNet-101基础网络(Russakovsky et al.， 2015)，批大小为8,Adam优化器(Kingma and Ba, 2014)，起始学习率为0.0001，每5个epoch衰减0.1。采用标准锚标[8、16、32]和锚比[0.5、1.0、2.0]。在交叉超合并(IOU)阈值为0.5时，该模型在所有9个区域标签上的平均精度(mAP)为46.38%，其中“身体”区域的分类性能最高(87.49%)，“作者”区域的分类性能最低(1.22%)。

上下文信息被纳入模型的分类和回归阶段，用于文章页面信息和提出的ROI边界框。页面上下文由文章中当前图像的页码和文章中的页数组成，两者都归一化为数据集中文章的平均页面长度(8.22)。边界框上下文由提议的感兴趣区域的位置和大小组成，并归一化为图像的尺寸。将两者附加到汇集的特征向量上，用于批量roi发送给分类和边界盒回归模型。这些模型的输入大小相应增加。以与基线相同的方式重新训练模型，平均精度为70.3%，“身体”区域的峰值分类性能为93.58%，“作者”区域的低性能为10.34%。第二低的是“表格说明”(30.8%)。

图4显示了超过30个训练epoch的每个类的性能，以及与基线Faster R-CNN模型和YOLOv3 (Linder-Noren, 2018)和RetinaNet (Henon, 2018)的参考模型实现的比较性能。大多数模型在这个小数据集上很早就趋于平稳，除了YOLOv3，它在49个epoch后达到68.9%的峰值(超出图界，但仍低于我们模型的结果)。我们的模型平均每篇文章的处理时间为0.65秒。相比之下，CERMINE在同一台机器上对同一组文章的每篇文章平均耗时9.4秒。

在这里插入图片描述
图4:结合页面和边界框上下文产生了比基线更快的R-CNN性能相对提高51.6%(绝对提高23.9%:70.3%对46.4%)。我们的模型也优于参考的最先进的单阶段模型:RetinaNet(58.1%的峰值mAP)和YOLOv3(68.9%，经过49个epoch)。小区域(作者、表标题)仍然具有挑战性，并降低了平均性能。所有结果@ 0.5 IOU。

除了两个小区域类(作者和表标题)之外，检测性能很快达到了一个相当高的平台(不包括这两个类的83.63%)，特别是考虑到模型是在少于100篇标记文章上训练的。这些区域类的大小和位置使得它们难以本地化并与其他类区分开来。第6节中描述的正在进行的工作侧重于合并额外的上下文特性，这些特性有望提高整体性能，特别是针对这些有问题的类。