LayoutLM:面向文档理解的文本和版面预训练

摘要:近年来预训练技术在各种NLP应用中得到广泛地应用。但是大部分只关注文本级的信息,忽略了对于文本理解至关重要的布局和样式的信息。这篇文章提出来一种LayoutLM模型,来联合建模文本和布局之间的信息交互,这有利于大量的现实的文档图像理解任务。此外还利用图像特征去将单词的视觉信息整合到LayoutLM中。To the best of our knowledge,这是首次在单一框架中共同学习文本和布局的用于预训练的框架。

CCS

信息系统->商业智能;计算方法->信息抽取;转让学习;

应用计算->文档分析

1.引言

文档理解现在是一个新颖的研究主题。商业文档的格式可能会有所不同,有多种方式组织,所以这是一个极其具备挑战性的任务。当代的文档AI处理方法常常建立在深度学习上面,但是通常具有两个局限性:(1)针对具体场景,依赖于少量人类标记的训练样本,没有利用大规模的无标注的训练样本,模型难以泛化到其他的场景或者布局。(2)通常是利用预训练的CV模型或NLP模型,但不考虑文本和布局信息的联合训练。因此研究文本和布局的自我监督预训练模型是很重要的。

        为了解决,提出来LayoutLM模型。它是受BERT模型的启发。在模型输入层面输入文本信息主要由文本嵌入和位置嵌入表示,LayoutLM进一步增加了两种类型的输入嵌入:(1)2D位置嵌入,表示token在文档中的相对位置,也就是文档版面的特征(2)图像嵌入,文档图像全局特征和单词级别特征。2D位置嵌入可以捕获文档中标记之间的关系,而图像嵌入可以捕获一些外观特征比如字体方向类型颜色等。在学习目标层面,掩码视觉语言模型(Masked Visual-Language Model, MVLM)损失与多标签文档分类(Multi-label Document Classification,MDC)损失进行多任务学习,进一步假期文本和布局的联合预训练。在训练数据层面,数据集的约一千一百万张的扫描文档图像上进行预训练,该数据集包含信件、备忘录、电子邮件、表格、票据等各式各样的文档类型。在这项工作中,重点在于基于扫描文档图像的文档预训练,而数字出身的文档可以被认为是不需要OCR的情况,超过了本文的范围。

文章贡献

1.首次在单个框架中对扫描文档的文本和布局信息进行了联合的预训练,图像特征也被利用。

2.使用了MVLM带掩码的视觉语言模型和MDC多标签文档分类作为训练目标。

2.模型架构

2.1BERT

BERT是一种基于注意力的双向语言模型。它通过对词嵌入、位置嵌入和段嵌入之和来计算输入

嵌入,然后这些输入嵌入通过一个多层双向的Transformer来传递。在BERT模型中,主要有两个步骤:预训练和微调。在预训练过程中使用两个目标来学习语言表示:掩模语言建模(MLM)和下一个句子预测(NSP),其中MLM随机屏蔽一些输入标记,目标是恢复这些被屏蔽的部分,类似做完形填空。而NSP是以一对句子作为输入判断它们是否为两个连续的句子。在微调中,使用特定于任务的数据集以端到端的方式更新所有参数。

2.2LayoutLM模型

相比于BERT,LayoutLM多使用了两种类型的特征去大大改善文档中的语言表示:

(1)文档布局信息,就是单词在文档中的相对位置。类似表中中的一个键“ID”,对应的值更可能出现在右侧或者下方。因此我们可以将这些相对位置信息嵌入为2D位置表示。

(2)视觉信息(图像特征):通常文档包括一些视觉信息,以显示文档片段的重要性和优先级。对于文档级别的图像特征,整个图像可以指示文档布局。对于单词级别的图像特征,粗体下划线和斜体等样式,也是序列标注任务的重要提示。

2.3模型架构

需要了解Faster R-CNN

深度长文解读RCNN、FastRCNN、FasterRCNN - 知乎

整个模型是以BERT作为主干,并且添加两个新的输入嵌入2D位置嵌入和图像嵌入。

2-D位置嵌入:它是为了模拟文档中相对空间位置。将文档页面视作左上角原点的坐标系统。边界框可以通过(x0,y0,x1,y1)这样一个坐标表示。一个代表左上角,一个代表边框右下角。用来两个嵌入层添加了四个位置嵌入层,其中表示相同维度的嵌入层共享相同的嵌入表。这意味着我们在嵌入表X中查找x0,x1,在表Y中查找y0,y1。

图像嵌入:为了利用到文档的图像特征,我们添加了一个图像嵌入层来表示图像特征。详细说,通过OCR结果中每个单词的边界框,我们将图像分割成多块,它们和单词具有一一对应的关系。使用Faster R-CNN模型的输出特征图作为标记图像嵌入来生成图像区域特征。对于【CLS】,还使用Faster R-CNN使用整个扫描文档作为感兴趣区域(ROI)来生成嵌入,以使需要【CLS】令牌表示的下游任务受益。

2.4预训练LayoutLM

任务1:掩码视觉语言模型MVLM。在预训练阶段,随机遮盖一些输入标记,一些单词的文本信息,但是保留相应的2-D位置嵌入,然后训练模型来预测给定上下文的被屏蔽标记。通过这一任务,模型能够理解上下文并且利用2-D位置信息,从而连接视觉和语言这两个模态。

任务2:多标签文档分类MDC。对于文档图像理解,许多任务需要模型生成高质量的文档级表示。由于IIT-CDIP数据中的每个文档图像都包含多个标签,LayoutLM利用这些标签进行有监督的文档分类任务,以令[CLS]标记输出更为有效的文档级别的表征。但是,对于更大规模的数据集,这些标签并非总可获取,因此该任务仅为可选项,并且实际上在后续的LayoutLMv2中被舍弃。后面会有比较MVLM和MVLM+MDC的性能

2.5微调LayoutLM

预训练的LayoutLM模型在三个文档图像理解任务上进行了微调:(1)表单理解任务(2)接收理解任务(3)文档图像分类任务。分别采用了FUNSD、SROIE以及RVL-CDIP数据集。对于表单和收据理解任务,LayoutLM预测每个令牌的{B,I,E,S,O}标记,并且使用序列标记来检测数据集中的每种类型的实体。对于文档图像分类任务,LayoutLM使用【CLS】标记的输出特征来进行类别预测。

3实验

3.1训练数据集

IIT-CDIP测试集1.0,包含超过600万个文档,其中超过1100万个扫描文档图像。此外每个文档都有对应的文本和元数据存在XML文件中。文本是通过对文档图像应用OCR产生的内容。元数据描述了文档的属性,如唯一标识和文档标签。

3.2微调数据集

分别采用了FUNSD、SROIE以及RVL-CDIP数据集,对应表单理解,收据信息提取和文档图像分类三个任务。

3.3文档预处理

由于预训练数据集(IIT-CDIP测试集)只包含纯文本,没有token对应的位置和边界框。所以需要重新扫描获得必要的布局信息。采用OCR来处理数据集,但同时获得了识别出的单词和它们在文档图像中的对应位置。这里借助了开源OCR引擎Tesseract6,以hOCR格式存储OCR结果。

3.4模型训练

        LayoutLM和BERT具有一致的网络结构,因此可以采用BERT的权重进行初始化除了2D位置嵌入层以外的所有模块。BASE(113M参数)和LARGE(343M参数)的两种设置都是采用BERT进行初始化。BASE模型为12层的Transformer,每层包含768个隐含单元与12个注意力头,共有113M参数;LARGE模型为24层的Transformer,每层包含1024个隐含单元与16个注意力头。值得注意的是,BERT以后我们使用15%的输入token进行预测,这15%的token中,80%用【mask】代替,10%用随机token代替,10%啥都不做

        此外,我们还添加了具有四个嵌入表示(x0,y0,x1,y1)的2-D位置嵌入层,这个代表边界框。考虑到文档布局在不同的页面尺寸可能不同,所以把实际坐标缩放为“虚拟”坐标。此外,在Faster R-CNN中使用ResNet-101模型作为骨干网络。

3.5特定于任务的微调

表单理解:对表单的文本内容进行提取和结构化,从图像中提取键值对。包括两个任务:语义标注和语义链接。语义标注是把单词聚合为语义实体,并为其分配预定义标签的任务。语义链接则是预测语义实体之间的关系。在这些任务中,我们专注于语义标注。我们将最终输出传递到一个线性层,然后使用softmax来预测每个token的标签。

收据理解:根据图像填充几个预定义的语义槽。例如给定一组收据,填充例如公司地址这些空格。语义槽的数量是预定义的,所以模型只需要使用序列标记方法预测相应的值。

文档图像分类:对文档进行分类。模型不仅使用图像表示,还使用多模态的文本和布局信息。把LayoutLM模型的输出和整个图像嵌入连接起来,然后使用softmax来预测。

3.6结果

表单理解

首先,可以看到,引入了视觉信息的LayoutLM模型在精度上取得了大幅度的提升。其次,更多的训练数据、更长的训练时间、更大的模型能够有效地提升模型精度。最后,MDC预训练任务在数据量为1M与11M时具有相反效果,大数据量情况下仅用MVLM效果更优。

可以看到,利用RoBERTa(A Robustly Optimized BERT)模型参数进行初始化,相比于利用原始BERT模型参数进行初始化,能够一定程度提升LayoutLM模型在下游任务上的精度。这也是因为RoBERTa的训练数据集更大

收据理解

LayoutLM LARGE模型的结果优于当时SROIE竞赛榜单第一名的结果。

文档图像分类

同样地,可以看到,LayoutLM取得了领先的结果。

相关工作

文献分析和识别(DAR)主流方法:基于规则的方法,传统的机器学习方法和深度学习方法。

基于规则的方法包括两种分析方法:自下而上和自上而下

基于机器学习的方法:ANN模型和SVM,GMM也被用于文档版面分析。机器学习需要耗费大量时间设计手工制作的特征,且难以获得高度抽象的语义上下文。此外这些方法依赖于视觉信息,忽略文本信息。

深度学习方法:现有的DAR有两个局限性(1)依赖于优先的标签数据(2)通常只利用预训练的CV模型和NLP模型,没有考虑文本和布局的联合预训练

总结

本文介绍的LayoutLM模型自监督地利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果。模型利用Transformer作为主干,利用多模态输入,包括token嵌入,布局嵌入和图像嵌入。论文作者指出,更大规模的数据集与模型、在预训练阶段考虑图像特征是下一步的研究方向。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值