【读点论文】LayoutLM: Pre-training of Text and Layout for Document Image Understanding集合文本，图像，布局信息的多模态信息尝试-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/135174064

本文提出 LayoutLM 对扫描文档图像中文本和布局信息交互联合建模，还融入图像特征。它以 BERT 为骨干，添加二维位置和图像嵌入，采用多任务学习目标。实验表明，其在表单理解、收据理解和文档图像分类等任务上显著优于多个 SOTA 预训练模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

ABSTRACT

近年来，预训练技术已在多种 NLP 任务中得到成功验证。尽管预训练模型广泛用于 NLP 应用，但它们几乎完全专注于文本级操作，而忽略了对于文档图像理解至关重要的布局和样式信息。在本文中，我们提出了 LayoutLM 来对扫描文档图像中的文本和布局信息之间的交互进行联合建模，这有利于大量现实世界的文档图像理解任务，例如从扫描文档中提取信息。此外，我们还利用图像特征将单词的视觉信息合并到 LayoutLM 中。据我们所知，这是第一次在文档级预训练的单一框架中联合学习文本和布局。它在几个下游任务中取得了新的最先进的结果，包括表格理解（从 70.72 到 79.27）、收据理解（从 94.02 到 95.24）和文档图像分类（从 93.07 到 94.42）。代码和预训练的 LayoutLM 模型可在 https://aka.ms/layoutlm 上公开获取。
文档理解是指对纸质文档扫描识别后，对其进行分析并建立内容逻辑的任务。将纸质文档转化为电子文档，是许多专业领域在数字化进程需要的关键技术，也具有很高的应用价值和商业价值。

INTRODUCTION

文档人工智能，或文档智能，是一个相对较新的研究主题，指自动阅读、理解和分析业务文档的技术。业务文档是提供与公司内部和外部交易相关的详细信息的文件，如下图所示。它们可能是数字化的，以电子文件的形式出现，也可能是书面或打印在纸上的扫描形式。商业文档的一些常见示例包括采购订单、财务报告、商业电子邮件、销售协议、供应商合同、信件、发票、收据、简历等。商业文档对于公司的效率和生产力至关重要。商业文档的确切格式可能有所不同，但信息通常以自然语言呈现，并且可以通过纯文本、多列布局和各种表格/表格/图形等多种方式进行组织。由于布局和格式的多样性、扫描文档图像的质量差以及模板结构的复杂性，理解商业文档是一项非常具有挑战性的任务。
- 具有不同布局和格式的商业文档的扫描图像
如今，许多公司通过手动方式从业务文档中提取数据，既耗时又昂贵，同时需要手动定制或配置。每种类型文档的规则和工作流程通常需要进行硬编码，并随着特定格式的更改或处理多种格式时进行更新。为了解决这些问题，文档 AI 模型和算法旨在自动对业务文档中的信息进行分类、提取和结构化，从而加速自动化文档处理工作流程。
现代文档人工智能方法通常是从计算机视觉角度或自然语言处理角度或两者结合的角度建立在深度神经网络的基础上。早期的尝试通常集中于检测和分析文档的某些部分，例如表格区域。 [A Table Detection Method for PDF Documents Based on Convolutional Neural Networks]首先提出了一种基于卷积神经网络（CNN）的PDF文档表格检测方法。之后，还利用更先进的Faster R-CNN模型或Mask R-CNN模型来进一步提高文档布局分析的准确性。此外，[Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks.] 提出了一种端到端、多模态、全卷积网络，用于从文档图像中提取语义结构，利用预先训练的 NLP 模型中的文本嵌入。
[Graph Convolution for Multimodal Information Extraction from Visually Rich Documents] 引入了基于图卷积网络（GCN）的模型，将文本和视觉信息结合起来，以便从业务文档中提取信息。尽管这些模型在深度神经网络的文档人工智能领域取得了重大进展，但大多数方法都面临两个局限性：（1）它们依赖于少量人类标记的训练样本，而没有充分探索使用大规模无标记训练的可能性样品。 (2)他们通常利用预训练的CV模型或NLP模型，但不考虑文本和布局信息的联合训练。因此，研究文本和布局的自监督预训练如何在文档人工智能领域提供帮助非常重要。
为此，我们提出了 LayoutLM，一种简单而有效的文本和布局预训练方法，用于文档图像理解任务。受 BERT 模型的启发，输入文本信息主要由文本嵌入和位置嵌入表示，LayoutLM 进一步添加了两种类型的输入嵌入：（1）二维位置嵌入，表示 token 的相对位置一个文件; (2) 将扫描的令牌图像嵌入到文档中。 LayoutLM 的架构如下图所示。
- LayoutLM 的示例，其中二维布局和图像嵌入集成到原始 BERT 架构中。LayoutLM 嵌入和 Faster R-CNN 的图像嵌入协同工作以完成下游任务。
我们添加这两个输入嵌入是因为二维位置嵌入可以捕获文档中标记之间的关系，同时图像嵌入可以捕获一些外观特征，例如字体方向、类型和颜色。此外，我们为 LayoutLM 采用多任务学习目标，包括掩模视觉语言模型（MVLM）损失和多标签文档分类（MDC）损失，这进一步加强了文本和布局的联合预训练。在这项工作中，我们的重点是基于扫描文档图像的文档预训练，而数字文档的挑战性较小，因为它们可以被视为不需要 OCR 的特殊情况，因此它们超出了本研究的范围纸。具体来说，LayoutLM 在 IIT-CDIP 测试集 1.02 上进行了预训练，其中包含超过 600 万个扫描文档和 1100 万个扫描文档图像。扫描的文档种类繁多，包括信件、备忘录、电子邮件、文件夹、表格、手写、发票、广告、预算、新闻文章、演示文稿、科学出版物、调查问卷、简历、科学报告、说明书等，这是大规模自监督预训练的理想选择。我们选择三个基准数据集作为下游任务来评估预训练的 LayoutLM 模型的性能。第一个是 FUNSD 数据集，用于空间布局分析和形式理解。第二个是用于扫描收据信息提取的 SROIE 数据集。第三个是用于文档图像分类的 RVL-CDIP 数据集，它由 16 个类别的 400,000 张灰度图像组成。实验表明，预训练的 LayoutLM 模型在这些基准数据集上显着优于多个 SOTA 预训练模型，展示了文档图像理解任务中文本和布局信息预训练的巨大优势。本文的贡献总结如下：
- 扫描文档图像中的文本和布局信息首次在单一框架中进行预训练。还利用图像特征来实现新的最先进的结果。
- LayoutLM 使用屏蔽视觉语言模型和多标签文档分类作为训练目标，在文档图像理解任务中显着优于几种 SOTA 预训练模型。
- 代码和预训练模型可在 https://aka.ms/layoutlm 上公开获取，以用于更多下游任务。

LAYOUTLM

在本节中，我们将简要回顾 BERT 模型，并介绍如何在 LayoutLM 框架中扩展对文本和布局信息进行联合建模。

The BERT Model

BERT模型是一种基于注意力的双向语言建模方法。经验证，BERT 模型在大规模训练数据的自监督任务中表现出有效的知识迁移。 BERT 的架构基本上是一个多层双向 Transformer 编码器。它接受一系列标记并堆叠多个层以生成最终表示。具体来说，给定使用 WordPiece 处理的一组标记，输入嵌入是通过对相应的词嵌入、位置嵌入和段嵌入求和来计算的。然后，这些输入嵌入通过多层双向 Transformer 传递，该 Transformer 可以使用自适应注意机制生成上下文化表示。
BERT框架有两个步骤：预训练和微调。在预训练期间，模型使用两个目标来学习语言表示：Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)，其中 MLM 随机屏蔽一些输入标记，目标是恢复这些屏蔽标记，而 NSP是一个二元分类任务，以一对句子作为输入，并对它们是否是两个连续的句子进行分类。在微调中，使用特定于任务的数据集以端到端的方式更新所有参数。 BERT模型已成功应用于一组NLP任务中。

The LayoutLM Model

尽管类似 BERT 的模型已成为几个具有挑战性的 NLP 任务的最先进技术，但它们通常仅利用任何类型的输入的文本信息。当涉及视觉丰富的文档时，可以将更多信息编码到预训练模型中。因此，我们建议利用文档布局中视觉丰富的信息并将其与输入文本对齐。基本上，有两种类型的功能可以显着改善视觉丰富的文档中的语言表示，它们是：
- 文档布局信息。显然，文档中单词的相对位置对语义表示有很大贡献。以表单理解为例，给定表单中的一个键（例如“护照ID：”），其对应的值更有可能位于其右侧或下方，而不是左侧或上方。因此，我们可以将这些相对位置信息嵌入为二维位置表示。基于 Transformer 内的自注意力机制，将 2-D 位置特征嵌入到语言表示中将更好地将布局信息与语义表示对齐。
- 视觉信息。与文本信息相比，视觉信息是文档表示中另一个显着重要的特征。通常，文档包含一些视觉信号来显示文档片段的重要性和优先级。视觉信息可以通过图像特征来表示并有效地用于文档表示。对于文档级视觉特征，整个图像可以指示文档布局，这是文档图像分类的重要特征。对于单词级视觉特征，粗体、下划线和斜体等样式也是序列标记任务的重要提示。因此，我们相信将图像特征与传统文本表示相结合可以为文档带来更丰富的语义表示。

Model Architecture

为了利用现有的预训练模型并适应文档图像理解任务，我们使用 BERT 架构作为主干，并添加两个新的输入嵌入：二维位置嵌入和图像嵌入。
- 二维位置嵌入。与对序列中单词位置进行建模的位置嵌入不同，二维位置嵌入旨在对文档中的相对空间位置进行建模。为了表示扫描文档图像中元素的空间位置，我们将文档页面视为以左上角为原点的坐标系。在此设置下，边界框可以通过(x0,y0,x1,y1)精确定义，其中(x0,y0)对应于边界框左上角的位置，(x1,y1)表示该位置右下角的。我们添加四个位置嵌入层和两个嵌入表，其中表示相同维度的嵌入层共享相同的嵌入表。这意味着我们在嵌入表 X 中查找 x0 和 x1 的位置嵌入，并在表 Y 中查找 y0 和 y1 。
- 图像嵌入。为了利用文档的图像特征并将图像特征与文本对齐，我们添加图像嵌入层来表示语言表示中的图像特征。更详细地说，利用 OCR 结果中每个单词的边界框，我们将图像分成几块，它们与单词一一对应。我们使用 Faster R-CNN 模型中的这些图像作为标记图像嵌入来生成图像区域特征。对于 [CLS] 令牌，我们还使用 Faster R-CNN 模型使用整个扫描文档图像作为感兴趣区域 (ROI) 来生成嵌入，以有利于需要 [CLS] 令牌表示的下游任务。

Pre-training LayoutLM

任务#1：掩蔽视觉语言模型。受屏蔽语言模型的启发，我们提出了屏蔽视觉语言模型（MVLM），以二维位置嵌入和文本嵌入为线索来学习语言表示。在预训练期间，我们随机屏蔽一些输入标记，但保留相应的二维位置嵌入，然后训练模型在给定上下文的情况下预测屏蔽标记。通过这种方式，LayoutLM 模型不仅可以理解语言上下文，还可以利用相应的二维位置信息，从而弥合视觉和语言模态之间的差距。
任务#2：多标签文档分类。对于文档图像理解，许多任务需要模型生成高质量的文档级表示。由于 IIT-CDIP 测试集包含每个文档图像的多个标签，因此我们还在预训练阶段使用多标签文档分类 (MDC) 损失。给定一组扫描文档，我们使用文档标签来监督预训练过程，以便模型可以对来自不同领域的知识进行聚类并生成更好的文档级表示。由于 MDC 损失需要每个文档图像的标签，而对于较大的数据集可能不存在，因此它在预训练期间是可选的，并且将来可能不会用于预训练较大的模型。我们将在第 3 节中比较 MVLM 和 MVLM+MDC 的性能。

Fine-tuning LayoutLM

预训练的 LayoutLM 模型针对三个文档图像理解任务进行了微调，包括表单理解任务、收据理解任务以及文档图像分类任务。对于表单和收据理解任务，LayoutLM 预测每个标记的 {B, I, E, S, O} 标签，并使用顺序标签来检测数据集中的每种类型的实体。对于文档图像分类任务，LayoutLM 使用 [CLS] 标记的表示来预测类标签。

EXPERIMENTS

Pre-training Dataset

预训练模型的性能很大程度上取决于数据集的规模和质量。因此，我们需要一个大规模的扫描文档图像数据集来预训练LayoutLM模型。我们的模型在 IIT-CDIP Test Collection 1.0 上进行了预训练，其中包含超过 600 万份文档，其中包含超过 1100 万张扫描文档图像。此外，每个文档都有其相应的文本和元数据存储在 XML 文件中。文本是对文档图像应用OCR产生的内容。元数据描述文档的属性，例如唯一标识和文档标签。尽管元数据包含错误和不一致的标签，但这个大型数据集中的扫描文档图像非常适合预训练我们的模型。

Fine-tuning Dataset

FUNSD 数据集。我们在 FUNSD 数据集上评估我们的方法，以理解嘈杂的扫描文档中的形式。该数据集包括 199 个真实的、完全注释的扫描表单，其中包含 9,707 个语义实体和 31,485 个单词。这些形式被组织为相互链接的语义实体列表。每个语义实体包括唯一标识符、标签（即问题、答案、标题或其他）、边界框、与其他实体的链接列表以及单词列表。数据集分为 149 个训练样本和 50 个测试样本。我们采用词级F1分数作为评价指标。
SROIE 数据集。我们还在 SROIE 数据集上评估我们的模型，以提取收据信息（任务 3）。该数据集包含 626 个训练收据和 347 个测试收据。每张收据都被组织为带有边框的文本行列表。每张收据都标有四种类型的实体：{公司、日期、地址、总计}。评估指标是F1分数中实体识别结果的精确匹配。
RVL-CDIP 数据集。 RVL-CDIP 数据集由 16 个类别的 400,000 张灰度图像组成，每个类别有 25,000 张图像。有 320,000 张训练图像、40,000 张验证图像和 40,000 张测试图像。图像已调整大小，因此其最大尺寸不超过 1,000 像素。这 16 个类别包括{信件、表格、电子邮件、手写、广告、科学报告、科学出版物、规范、文件夹、新闻文章、预算、发票、演示文稿、调查问卷、简历、备忘录}。评价指标是总体分类准确率。

Document Pre-processing

为了利用每个文档的布局信息，我们需要获取每个标记的位置。然而，预训练数据集（IIT-CDIP 测试集）仅包含纯文本，而缺少相应的边界框。在这种情况下，我们重新处理扫描的文档图像以获得必要的布局信息。与 IIT-CDIP 测试集中的原始预处理一样，我们通过将 OCR 应用于文档图像来类似地处理数据集。不同的是，我们同时获得了识别出的单词及其在文档图像中的对应位置。借助开源 OCR 引擎 Tesseract6，我们可以轻松获得识别结果以及二维位置。我们以 hOCR 格式存储 OCR 结果，这是一种标准规范格式，它使用分层表示形式清楚地定义了单个文档图像的 OCR 结果。

Model Pre-training

我们使用预训练的 BERT 基础模型初始化 LayoutLM 模型的权重。具体来说，我们的 BASE 模型具有相同的架构：一个 12 层 Transformer，具有 768 个隐藏尺寸，以及 12 个注意力头，其中包含约 113M 个参数。因此，我们使用 BERT 基础模型来初始化模型中除 2-D 位置嵌入层之外的所有模块。对于 LARGE 设置，我们的模型有一个 24 层 Transformer，具有 1,024 个隐藏尺寸和 16 个注意力头，由预训练的 BERT LARGE 模型初始化，包含约 343M 个参数。按照[BERT]，我们选择 15% 的输入标记进行预测。我们在 80% 的情况下将这些屏蔽标记替换为 [MASK] 标记，在 10% 的情况下使用随机标记，在 10% 的情况下使用未更改的标记。然后，模型用交叉熵损失来预测相应的令牌。
此外，我们还添加了具有四个嵌入表示（x0，y0，x1，y1）的二维位置嵌入层，其中（x0，y0）对应于边界框左上角的位置，（x1， y1)代表右下位置。考虑到不同页面尺寸的文档布局可能会有所不同，我们将实际坐标缩放为“虚拟”坐标：实际坐标缩放为 0 到 1,000 之间的值。此外，我们还使用 ResNet-101 模型作为 Faster R-CNN 模型中的主干网络，该模型在 Visual Genome 数据集上进行了预训练。
我们在 8 个 NVIDIA Tesla V100 32GB GPU 上训练模型，总批量大小为 80。使用 Adam 优化器，初始学习率为 5e-5，采用线性衰减学习率计划。 BASE 模型需要 80 小时才能完成 11M 个文档的 1 个 epoch，而 LARGE 模型需要近 170 小时才能完成 1 个 epoch。

Task-specific Fine-tuning

我们在三个文档图像理解任务上评估 LayoutLM 模型：表单理解、收据理解和文档图像分类。我们遵循典型的微调策略，并在特定于任务的数据集上以端到端的方式更新所有参数。
表单理解。此任务需要提取和构建表单的文本内容。它的目的是从扫描的表单图像中提取键值对。更详细地说，该任务包括两个子任务：语义标记和语义链接。语义标记是将单词聚合为语义实体并为其分配预定义标签的任务。语义链接是预测语义实体之间关系的任务。在这项工作中，我们专注于语义标记任务，而语义链接超出了范围。为了在此任务上微调 LayoutLM，我们将语义标记视为序列标记问题。我们将最终表示传递到线性层，然后是 softmax 层来预测每个标记的标签。该模型训练了 100 个 epoch，批量大小为 16，学习率为 5e-5。
收据理解。该任务需要根据扫描的收据图像填充几个预定义的语义槽。例如，给定一组收据，我们需要填写特定的位置（例如公司、地址、日期和总计）。与需要标记所有匹配实体和键值对的形式理解任务不同，语义槽的数量是由预定义的键固定的。因此，模型只需要使用序列标记方法来预测相应的值。
文档图像分类。给定一个视觉丰富的文档，该任务旨在预测每个文档图像的相应类别。与现有的基于图像的方法不同，我们的模型不仅包括图像表示，还包括使用 LayoutLM 中的多模态架构的文本和布局信息。因此，我们的模型可以更有效地结合文本、布局和图像信息。为了在此任务上微调我们的模型，我们将 LayoutLM 模型的输出和整个图像嵌入连接起来，然后是用于类别预测的 softmax 层。我们将模型微调为 30 个时期，批量大小为 40，学习率为 2e-5。

Results

表单理解。我们在 FUNSD 数据集上评估表单理解任务。实验结果如下表所示。我们将 LayoutLM 模型与两个 SOTA 预训练的 NLP 模型进行比较：BERT 和 RoBERTa 。 BERT BASE 模型在 F1 中达到 0.603，而 LARGE 模型达到 0.656。与 BERT 相比，RoBERTa 在该数据集上的表现要好得多，因为它是使用更大的数据和更多的 epoch 进行训练的。由于时间限制，我们为 LayoutLM 提供了 4 种设置，分别是 500K 文档页，6 个 epoch，1M，6 个 epoch，2M，6 个 epoch，以及 11M，2 个 epoch。据观察，LayoutLM 模型的性能大大优于现有的 SOTA 预训练基线。采用BASE架构，11M训练数据的LayoutLM模型在F1中达到0.7866，远高于参数大小相似的BERT和RoBERTa。此外，我们还在预训练步骤中添加了MDC损失，它确实给FUNSD数据集带来了实质性的改进。最后，当同时使用文本、布局和图像信息时，LayoutLM 模型取得了 0.7927 的最佳性能。
- FUNSD 数据集上的模型准确性（精度、召回率、F1）
此外，我们还在 FUNSD 数据集上使用不同数据和时期评估 LayoutLM 模型，如下表所示。对于不同的数据设置，我们可以看到，随着预训练步骤中训练更多的 epoch，整体精度单调增加。此外，随着更多数据输入 LayoutLM 模型，准确性也得到提高。由于 FUNSD 数据集仅包含 149 张用于微调的图像，结果证实文本和布局的预训练对于扫描文档的理解是有效的，尤其是在资源设置较低的情况下。
- FUNSD 数据集上不同数据和时期的 LayoutLMBASE（文本 + 布局，MVLM）准确性
此外，我们还比较了 LayoutLM 模型的不同初始化方法，包括从头开始、BERT 和 RoBERTa。下表的结果表明，使用 RoBERTaBASE 初始化的 LayoutLMBASE 模型在 F1 中比 BERTBASE 好 2.1 个点。对于 LARGE 设置，使用 RoBERTaLARGE 初始化的 LayoutLMLARGE 模型比 BERTLARGE 模型进一步提高了 1.3 个百分点。未来我们将使用 RoBERTa 作为初始化来预训练更多模型，特别是对于 LARGE 设置。
- BASE 和 LARGE 的不同初始化方法（文本 + 布局、MVLM）
收据理解。我们使用 SROIE 数据集评估收据理解任务。结果如下表所示。由于我们仅测试SROIE中关键信息提取任务的性能，因此我们希望消除不正确的OCR结果的影响。因此，我们使用GT OCR 预处理训练数据，并使用基线模型（BERT 和 RoBERTa）以及 LayoutLM 模型运行一组实验。结果显示，用11M文档图像训练的LayoutLMLARGE模型取得了0.9524的F1分数，明显优于竞赛排行榜第一名。此结果还验证了预训练的 LayoutLM 不仅在域内数据集 (FUNSD) 上表现良好，而且在 SROIE 等域外数据集上也优于多个强大的基线。
- SROIE 数据集上的模型准确性（精度、召回率、F1）
文档图像分类。最后，我们使用 RVL-CDIP 数据集评估文档图像分类任务。文档图像与其他自然图像不同，文档图像中的大部分内容是各种样式和布局的文本。传统上，经过预训练的基于图像的分类模型的性能比基于文本的模型要好得多，如下表所示。我们可以看到，BERT 或 RoBERTa 的性能都不及基于图像的方法，这说明文本信息对此是不够的任务，它仍然需要布局和图像特征。我们通过使用 LayoutLM 模型来解决此任务。结果表明，即使没有图像特征，LayoutLM 仍然优于基于图像的方法的单一模型。集成图像嵌入后，LayoutLM 的准确率达到 94.42%，明显优于文档图像分类的几个 SOTA 基线。据观察，我们的模型在“电子邮件”类别中表现最好，而在“表单”类别中表现最差。我们将进一步研究如何利用预训练的 LayoutLM 和图像模型，以及如何在 LayoutLM 模型的预训练步骤中涉及图像信息。
- RVL-CDIP 数据集的分类精度

RELATED WORK

文档分析与识别 (DAR) 的研究可以追溯到 20 世纪 90 年代初。主流方法可以分为三类：基于规则的方法、传统机器学习方法和深度学习方法。

Rule-based Approaches

基于规则的方法包含两种类型的分析方法：自下而上和自上而下。自下而上的方法通常检测黑色像素的连通分量作为文档图像中的基本计算单元，文档分割过程是通过不同的启发式将它们组合成更高层次的结构，并根据不同的结构特点。 Docstrum 算法是最早成功的基于连通分量分析的自下而上算法之一。它将极性结构上的连接组件分组以得出最终的分割。 [A fast algorithm for bottom-up document layout analysis]使用不同组件之间的特殊距离度量来构建物理页面结构。他们通过使用启发式和路径压缩算法进一步降低了时间复杂度。
自上而下的方法通常递归地将页面分成列、块、文本行和标记。文献[Recursive XY cut using bounding boxes of connected components]提出用所有像素中的黑色像素来代替基本单元，并使用递归X-Y切割算法对文档进行分解，建立X-Y树，这使得复杂文档更容易分解。尽管这些方法在某些文档上表现良好，但它们需要大量的人力来找出更好的规则，同时有时无法推广到其他来源的文档。因此，在 DAR 研究中利用机器学习方法是不可避免的。

Machine Learning Approaches

随着传统机器学习的发展，统计机器学习方法在过去十年中已成为文档分割任务的主流。 [Learning nongenerative grammatical models for document analysis]将文档的布局信息视为解析问题，并基于基于语法的损失函数全局搜索最优解析树。他们利用机器学习方法来选择特征并在解析过程中训练所有参数。同时，人工神经网络已广泛应用于文档分析和识别。大多数努力都致力于识别孤立的手写和印刷字符，并取得了广泛认可的成功结果。除了 ANN 模型之外，SVM 和 GMM 也已用于文档布局分析任务。对于机器学习方法来说，设计手工制作的特征通常非常耗时，并且很难获得高度抽象的语义上下文。此外，这些方法通常依赖于视觉提示而忽略文本信息。

Deep Learning Approaches

最近，深度学习方法已成为许多机器学习问题的主流和事实上的标准。理论上，它们可以通过多层神经网络的堆叠来拟合任意函数，并已在许多研究领域被验证是有效的。将文档语义结构提取任务视为逐像素分类问题。他们提出了一种考虑视觉和文本信息的多模态神经网络，而这项工作的局限性在于他们仅使用该网络来辅助启发式算法对候选边界框进行分类，而不是端到端的方法。 [Fast CNNBased Document Layout Analysis]提出了一种用于移动和云服务的轻量级文档布局分析模型。该模型利用图像的一维信息进行推理，并与利用二维信息的模型进行比较，在实验中达到了相当的精度。 [Chargrid]利用全卷积编码器-解码器网络来预测分割掩模和边界框，并且该模型显着优于基于顺序文本或文档图像的方法。 [Visual Detection with Context for Document Layout Analysis] 将上下文信息纳入 Faster R-CNN 模型，该模型涉及文章内容固有的本地化性质，以提高区域检测性能。
现有的 DAR 深度学习方法通常面临两个局限性：（1）模型通常依赖于有限的标记数据，而大量未标记数据未被使用。（2）目前的深度学习模型通常利用预训练的CV模型或NLP模型，但没有考虑文本和布局的联合预训练。 LayoutLM 解决了这两个限制，并且与之前的基准相比实现了更好的性能。

CONCLUSION AND FUTURE WORK

我们提出了 LayoutLM，这是一种简单而有效的预训练技术，在单个框架中包含文本和布局信息。 LayoutLM 以 Transformer 架构为骨干，利用多模态输入，包括令牌嵌入、布局嵌入和图像嵌入。同时，该模型可以基于大规模未标记扫描文档图像以自监督的方式轻松训练。我们在三个任务上评估 LayoutLM 模型：表单理解、收据理解和扫描文档图像分类。实验表明，LayoutLM 在这些任务中明显优于多个 SOTA 预训练模型。
对于未来的研究，我们将研究具有更多数据和更多计算资源的预训练模型。此外，我们还将使用具有文本和布局的 LARGE 架构来训练 LayoutLM，并在预训练步骤中涉及图像嵌入。此外，我们将探索新的网络架构和其他自监督训练目标，这可能会进一步释放 LayoutLM 的力量。
MMOCR 是一个基于 PyTorch 和 MMDetection 的开源工具箱，支持众多 OCR 相关的模型，涵盖了文本检测、文本识别以及关键信息提取等多个主要方向。它还支持了大多数流行的学术数据集，并提供了许多实用工具帮助用户对数据集和模型进行多方面的探索和调试，助力优质模型的产出和落地。它具有以下特点：
- 全流程，多模型：支持了全流程的 OCR 任务，包括文本检测、文本识别及关键信息提取的各种最新模型。
- 模块化设计：MMOCR 的模块化设计使用户可以按需定义及复用模型中的各个模块。
- 实用工具众多：MMOCR 提供了全面的可视化工具、验证工具和性能评测工具，帮助用户对模型进行排错、调优或客观比较。
- MMOCR 遵循着 OpenMMLab 严谨的开发准则和接口约定，极大地降低了用户切换各算法库时的学习成本。同时，MMOCR 也可以非常便捷地与家族内其他算法库跨库联动，从而满足用户跨领域研究和落地的需求。