PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

这篇文章介绍了一个名为 PP-DocLayout 的文档布局检测模型,旨在解决现有布局检测模型在泛化能力、复杂布局处理和实时性能方面的不足。以下是文章的主要研究内容总结:

1. 研究背景与动机

  • 文档布局分析的重要性:文档布局分析是文档智能中的关键预处理步骤,能够识别和定位文档中的结构化元素(如标题、文本块、表格、公式等),为下游任务(如表格识别、公式识别、OCR 和信息抽取)提供基础支持。

  • 现有方法的局限性

    • 泛化能力不足:大多数现有模型主要针对学术论文,对杂志、报纸、财务报告等其他文档类型表现不佳。

    • 复杂布局处理能力弱:缺乏对细粒度元素(如内联公式、脚注、页眉等)的精确分类。

    • 实时性能不足:现有模型计算成本高,难以满足大规模数据处理和实时应用的需求。

2. PP-DocLayout 模型

  • 模型目标:提出一个统一的文档布局检测模型,支持多种文档类型和细粒度元素类别,同时具备高精度和高效率。

  • 模型架构

    • PP-DocLayout-L:基于 RT-DETR-L 检测器的高精度模型,mAP@0.5 达到 90.4%,在 T4 GPU 上每页推理时间为 13.4 毫秒。

    • PP-DocLayout-M:平衡模型,mAP@0.5 为 75.2%,在 T4 GPU 上每页推理时间为 12.7 毫秒。

    • PP-DocLayout-S:高效率模型,适用于资源受限环境和实时应用,mAP@0.5 为 70.9%,在 T4 GPU 上每页推理时间为 8.1 毫秒,在 CPU 上为 14.5 毫秒。

3. 方法创新

  • 知识蒸馏框架

    • 使用预训练的 Vary-VIT-B 模型作为教师模型,PP-HGNetV2-B4 作为学生模型,通过特征对齐进行知识蒸馏,显著提升了 PP-DocLayout-L 的性能(mAP@0.5 从 89.3% 提高到 90.4%)。

  • 半监督学习

    • 利用 PP-DocLayout-L 的高精度能力生成伪标签,增强 PP-DocLayout-M 和 PP-DocLayout-S 的训练数据,显著提升了它们的性能(PP-DocLayout-M 的 mAP@0.5 从 73.8% 提高到 75.2%,PP-DocLayout-S 的 mAP@0.5 从 66.2% 提高到 70.9%)。

4. 实验与结果

  • 数据集

    • 收集了涵盖多种文档类型(如学术论文、杂志、报纸、研究报告、试卷、手写笔记、合同和书籍)的综合数据集,包含 30,000 张训练图像和 500 张验证图像。

    • 数据集标注了 23 种常见的布局类别,比现有方法(如 DocLayout-YOLO)更细粒度。

  • 性能对比

    • PP-DocLayout 在多种文档类型上表现出色,能够准确识别和分类文档中的各种元素(如标题、段落、公式、图表等)。

    • 与 DocLayout-YOLO 相比,PP-DocLayout 在公式识别、手写笔记处理和图表分类等方面表现更优。

  • 消融研究

    • 证明了知识蒸馏和半监督学习对模型性能的显著提升作用。

5. 结论

  • 贡献

    • PP-DocLayout 提供了一个多功能且高效的文档布局检测解决方案,能够应对多样化文档结构的复杂性和实时性能需求。

    • 该模型不仅推动了文档布局分析领域的最新进展,还为文档智能和多模态 AI 系统的发展提供了强大的支持。

  • 代码和模型:相关代码和模型已在 GitHub 上开源。

6. 附录

  • 提供了数据集中每个类别的实例分布,以及 PP-DocLayout-L 在不同文档类型上的可视化结果,进一步展示了模型的多样性和泛化能力。


这篇文章的核心贡献在于提出了一种高效的文档布局检测模型,通过知识蒸馏和半监督学习等技术,显著提升了模型的精度和效率,同时支持多种文档类型和细粒度元素类别,为文档智能领域的实际应用提供了有力支持。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里,如下所示:

摘要

文档布局分析是文档智能中一个关键的预处理步骤,能够检测和定位标题、文本块、表格和公式等结构化元素。尽管其重要性不言而喻,但现有的布局检测模型在泛化到多样化文档类型、处理复杂布局以及实现大规模数据处理的实时性能方面面临着重大挑战。为了克服这些限制,我们提出了 PP-DocLayout,该模型能够在多样化文档格式中以高精度和高效率识别 23 种类型的布局区域。为了满足不同需求,我们提供了三种不同规模的模型。PP-DocLayout-L 是基于 RT-DETR-L 检测器的高精度模型,在 T4 GPU 上每页的端到端推理时间为 13.4 毫秒,mAP@0.5 达到 90.4%。PP-DocLayout-M 是一个平衡模型,在 T4 GPU 上每页的推理时间为 12.7 毫秒,mAP@0.5 为 75.2%。PP-DocLayout-S 是一个为资源受限环境和实时应用设计的高效率模型,在 T4 GPU 上每页的推理时间为 8.1 毫秒,在 CPU 上为 14.5 毫秒。这项工作不仅推动了文档布局分析领域的最新进展,还为构建高质量训练数据提供了强大的解决方案,从而推动文档智能和多模态 AI 系统的发展。

1. 引言

随着大型语言模型(LLMs)和多模态文档理解系统的快速发展,对高质量结构化训练数据的需求显著增加。文档布局检测能够识别和定位结构化元素(例如文本块、表格和图表),在将原始文档图像转换为机器可读格式方面发挥着关键作用。如图 1 所示,布局检测是多种下游任务的基础,包括表格识别、公式识别、OCR 和信息抽取。例如,在表格识别中,布局检测模型能够准确地定位和定义文档图像中表格的边界,从而提取表格区域以供进一步处理,例如解析表格结构并提取底层数据。这种结构化的表格数据对于从数据分析到信息检索的应用极为有价值。同样地,在公式识别中,布局检测模型检测并定位文档中的公式区域,这使得这些区域可以被提取并输入到专门的公式识别系统中。由此产生的结构化公式数据不仅增强了机器对数学内容的理解,还丰富了训练数据集,提高了模型在各种情境中识别和解释公式的能力。然而,尽管其潜力巨大,现有的布局检测模型仍面临三个关键限制:(1)在不同文档类型之间的泛化能力较差。当前的方法主要集中在学术论文上,导致在其他文档类型(如杂志、报纸和财务报告)上的表现不佳;(2)对复杂布局的处理能力不足。由于缺乏全面的类别定义(例如没有为行内公式和行间公式分别设置标签),需要辅助模型,这增加了复杂性并降低了效率;(3)实时应用的处理速度不足。这些挑战阻碍了布局检测在实际场景中的有效使用,尤其是在需要高效获取大量高质量数据来训练大型模型的领域。为了应对这些挑战,我们提出了 PP-DocLayout,这是一个统一的布局检测模型,能够在多样化文档格式中实现最先进的精度和实时推理能力。PP-DocLayout 支持 23 种常见的布局类别,涵盖了多样化文档中发现的各种布局元素。这种清晰的类别层次结构有助于改进语义理解和逻辑解析,而包含的高价值信息的结构化数据则使得数据处理和分析更加精确。为了满足大规模数据集构建的关键效率要求,借助高性能的 PaddleX 推理引擎,轻量级模型展示了卓越的处理能力——在 T4 GPU 上每秒处理约 123 页。这些性能显著优于现有的开源解决方案,为文档布局分析在精度和计算效率方面树立了新的基准。

2. 相关工作

文档布局分析(DLA)的演变反映了从孤立组件检测到整体语义理解的范式转变。早期的单模态方法将 DLA 视为一个专门的计算机视觉任务,通过在通用目标检测框架(如 Faster RCNN [7]、YOLO [8])上进行领域特定的修改来适应。最近,基于 YOLOv10 [8] 的先进方法 DocLayout-YOLO [14] 在多样化文档数据上进行预训练,并设计了 GL-CRM 模块,实现了 10 种布局检测的高精度。多模态学习的出现从根本上改变了 DLA 方法。LayoutLM 系列 [3, 10, 11] 展示了统一预训练策略的力量,整合了掩码视觉-语言建模和空间感知位置嵌入。最近的进展进一步探索了自监督范式,DiT [4] 通过新颖的预训练目标利用大量未标记文档,而 VGT [1] 引入基于网格的文本编码以保留细粒度的排版特征。值得注意的是,该领域正在见证 DLA 与文档智能的融合,其中布局理解是更高层次语义任务的基础。
尽管取得了这些进展,但仍存在几个挑战。首先,大多数现有方法专注于特定类型的文档,如学术论文,缺乏对多样化文档类别的泛化能力,例如杂志、报纸和手写笔记。其次,对细粒度元素(如公式、脚注和页眉)的检测仍未得到充分探索。最后,布局检测方法的计算效率仍然是一个重大挑战,因为许多最先进的模型计算成本高昂且速度缓慢,限制了它们在实时或大规模文档处理场景中的适用性。
我们的工作通过提出一个支持广泛文档类型和细粒度元素类别的统一文档布局检测框架来解决这些限制。通过利用先进的深度学习技术并结合上下文信息,我们的方法在多样化布局中实现了稳健的性能,同时保持了计算效率。

3. 方法

我们介绍了 PP-DocLayout,这是一个通过数据策划和算法设计创新实现最先进的性能的统一检测模型。我们的方法结合了三个关键改进策略。

3.1 知识蒸馏框架

PP-DocLayout-L 采用知识蒸馏 [2] 范式来增强文档布局理解的性能,如图 2 所示。在这个框架中,GOT-OCR2.0 [9] 的视觉编码器 Vary-VIT-B 模型作为教师模型,这是一个经过良好训练且具备先进文档理解能力的模型。学生模型是 PP-DocLayout-L 的 PPHGNetV2-B4 主干网络,旨在从教师模型中学习。蒸馏过程涉及将教师的知识传递给学生,通过对齐它们的特征表示来实现。

蒸馏框架在包含 500,000 个文档样本的多样化语料库上进行训练,涵盖五个领域:

  • 数学公式(包括方程推导和符号表示)

  • 财务文件(报告和资产负债表)

  • 科学文献(STEM 领域的 arxiv 论文)

  • 学术论文(具有复杂布局结构)

  • 表格数据(统计报告和电子表格)
    训练在 768×768 分辨率下进行,共 50 个 epoch,使用 AdamW 优化器(β1​=0.9,β2​=0.999)。经过蒸馏的 PP-HGNetV2-B4 仅用 15.6M 参数就实现了有效的特征提取能力。

3.2 半监督学习

在本节中,我们介绍了用于增强 PP-DocLayout-M 和 PP-DocLayout-S 模型性能的半监督学习方法。该方法利用 PP-DocLayout-L 模型的高精度能力生成伪标签,随后用这些伪标签来增强较不复杂模型的训练数据。
伪标签生成
给定一个未标记的文档图像 xu​,我们首先使用教师模型 PP-DocLayout-L(参数为 θT​)生成原始预测,如下所示:

伪标签生成与训练

4. 实验结果

4.1 数据集

我们收集了一个涵盖多种类型的文档图像的综合数据集,包括中文和英文学术论文、杂志、报纸、研究报告、试卷、手写笔记、合同和书籍。这种多样化数据集确保了我们的模型在不同文档格式和结构上的鲁棒性和泛化能力。数据集包含 30,000 张用于训练的图像和 500 张用于评估的图像。图像来自百度图片搜索和公共数据集,包括 Doclaynet [6] 和 PublayNet [15]。图像被标注为 23 种常见的布局类别,这些类别的分布详细记录在附录的表 5 中。如表 1 所示,与 DocLayout-YOLO [14] 等先进算法相比,我们的方法定义了一个更全面且细粒度的类别集合。虽然 DocLayout-YOLO 将许多文档元素简化为“标题”、“文本”和“图表”等宽泛类别,但我们的方法区分了语义上有意义的元素,如文档标题、段落标题、页码、页眉、页脚和脚注。这种细粒度划分使得文档的层次结构和逻辑关系能够更好地被解析。此外,我们的方法能够准确识别和分类公式、图表和印章等高价值元素,而 DocLayout-YOLO 要么将它们误分类,要么忽略(例如将它们标记为“废弃”或“图表”)。这种全面的分类支持更广泛的下游任务,包括文档理解、信息抽取和格式转换。

4.2 实现细节

PP-DocLayout-L 模型基于 RT-DETR-L [13] 目标检测架构,并使用经过知识蒸馏的预训练 PPHGNetV2-B4 模型。训练配置为恒定学习率为 0.0001。模型在 8 个 GPU 上训练了 100 个 epoch,每个 GPU 的批量大小为 2,总训练时间约为 26 小时(使用 NVIDIA V100 GPU)。PP-DocLayout-M 和 PP-DocLayout-S 模型分别基于 PicoDet-M 和 PicoDet-S [12] 目标检测架构。这两个模型都在 8 个 GPU 上训练了 100 个 epoch,每个 GPU 的批量大小为 2。PP-DocLayout-M 的学习率为 0.02,PP-DocLayout-S 的学习率为 0.06,并使用余弦衰减 [5] 学习率调度器动态调整。

4.3 主要结果

表 2 展示了不同变体的 PP-DocLayout 模型的性能和规格。该表突出了每个模型变体在精度、推理速度和模型大小之间的权衡。PP-DocLayout-L 模型在 IoU 阈值为 0.5 时达到了最高的平均精度(mAP),为 90.4%。然而,这种精度是以模型大小为 3094 万参数和推理时间为代价的,在 T4 GPU 上为 13.39 毫秒(约 74.6 FPS),在 CPU 上约为 759.76 毫秒(约 1.32 FPS)。在附录的图 4 中,我们提供了额外的可视化结果,以进一步展示我们的模型在多种文档类型和布局上的有效性。具体来说,我们在论文、杂志、报纸、研究报告、书籍、笔记、合同和试卷等文档上展示了方法的性能。可视化结果清楚地表明,我们的模型能够准确识别和分类多种元素。PP-DocLayout-S 模型提供了一个显著较小的模型大小,为 121 万参数,推理速度更快,在 T4 GPU 上为 8.11 毫秒(约 123 FPS),在 CPU 上约为 14.49 毫秒(约 69.04 FPS)。尽管其紧凑性,它仍然保持了 70.9% 的 mAP。PP-DocLayout-M 模型介于两者之间,达到了 75.2% 的 mAP。它具有中等大小的模型,为 565 万参数,在 T4 GPU 上的推理时间为 12.73 毫秒,在 CPU 上约为 59.82 毫秒,相当于约 16.72 FPS。这些结果说明了模型设计中固有的权衡,即精度的提高通常以模型大小和推理速度为代价。因此,模型的选择可能取决于实际应用中对精度、计算资源和延迟的具体要求。

4.4 定性分析

在本节中,我们通过可视化比较了我们提出的方法与先进方法 DocLayout-YOLO [14] 的结果。由于标签类别的差异,传统的定量指标无法直接应用。因此,我们采用可视化技术来展示每种方法的性能,以便进行直观比较。可视化结果如图 3 所示。第一行展示了 DocLayout-YOLO [14] 的结果,第二行展示了我们的方法的结果。从第一列图像可以看出,我们的结果包括文档标题、摘要、段落标题和文本等元素,这些元素对于理解文档的语义层次和逻辑结构至关重要。相比之下,DocLayout-YOLO 将这些元素归类为“标题”和“纯文本”两个宽泛类别,限制了其有效解析文档语义层次的能力。此外,我们的 PP-DocLayout 能够准确定位页码、页眉、页脚和脚注,而 DocLayout-YOLO 通常将这些元素分类为“废弃”,忽视了它们的潜在价值。第二列突出了公式识别的差异。我们的方法能够识别内联公式和块级公式,这对于下游任务(如 PDF 到 Markdown 的转换)至关重要。相比之下,DocLayout-YOLO 在识别内联公式方面存在困难,仅关注突出的块级公式,这限制了其在需要全文识别的任务中的实用性。第三列展示了我们在处理手写笔记方面的优越性能。虽然我们的方法正确识别并分类了手写内容,但 DocLayout-YOLO 将其误分类为“图表”,未能捕捉到其文本意义。最后一列说明了我们的方法能够区分自然图像、图表和印章。图表和印章尤为重要,因为它们通常包含高价值信息,而我们的方法确保它们被单独分类。相比之下,DocLayout-YOLO 没有这种区分,可能会忽略关键细节。总体而言,我们的方法提供了更细粒度且准确的文档元素表示,能够更好地进行语义理解,并支持比 DocLayout-YOLO 更广泛的下游任务。

4.5 消融研究

为了评估半监督学习和知识蒸馏对模型性能的影响,我们使用 PP-DocLayout 模型变体进行了一系列消融实验。我们比较了每种模型在使用和不使用这些技术时的性能,测量了在 IoU 阈值为 0.5 时的平均精度(mAP)。

知识蒸馏
我们研究了知识蒸馏对 PP-DocLayout-L 变体的影响,如表 3 所示。使用知识蒸馏使 mAP 从 89.3% 提高到 90.4%,表明对模型精度有积极影响。

算法名称知识蒸馏mAP@0.5 (%)
PP-DocLayout-L89.3
PP-DocLayout-L90.4 (+1.1)

表 3. 知识蒸馏效果的消融研究结果。

半监督学习
如表 4 所示,对于 PP-DocLayout-M 和 PP-DocLayout-S 模型,采用半监督学习显著提升了性能。具体来说,PP-DocLayout-M 的 mAP 从 73.8% 提高到 75.2%,增加了 1.4%。

算法名称半监督学习mAP@0.5 (%)
PP-DocLayout-M73.8
PP-DocLayout-M75.2 (+1.4)
PP-DocLayout-S66.2
PP-DocLayout-S70.9 (+3.7)

表 4. 半监督学习效果的消融研究结果。

这些结果强调了半监督学习和知识蒸馏在提升模型性能方面的有效性,从而支持了它们在文档布局分析任务中的应用。

5. 结论

我们介绍了 PP-DocLayout,这是一个在 PaddlePaddle 框架内开发的新型文档布局检测模型,旨在解决现有布局检测模型在文档智能中面临的重大挑战。PP-DocLayout 在文档布局分析方面迈出了重要一步,提供了一个多功能且高效的解决方案,以应对文档结构的复杂性和多样性。我们的模型不仅推动了该领域的最新进展,还为实际应用提供了实用工具,为文档智能及相关领域的未来发展铺平了道路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值