1. 算法背景与动机
近年来,以BERT为代表的预训练模型在许多NLP任务场景下,被成功地应用。但是,许多预训练模型只关注对纯文本信息的操作,而忽略了文档信息中的样式和位置等信息,这些信息这对我们成功地理解文档数据非常关键。许多在文档理解领域提出的算法中,总体有以下两个缺陷:
- 这些方法标注的训练数据,并没有探索使用大量的无标签数据来进行预训练的方式;
- 这些方法只利用了图像数据或者利用了文本数据,并没有将两者结合。
深度学习时代,许多模型依赖于数据驱动,而通常在不少场景下,我们第一时间得不到大量标注好的数据,因此利用无标签数据来进行自监督学习(self-supervised)成为了一种解决办法。所以,论文首次提出了结合图像信息以及文本信息的预训练模型LayoutLM,并且在多个NLP下游任务中取到了SOTA(2020.1.16)。
3. 模型结构
模型受到了BERT的启发,输入的数据除了文本数据加上位置编码信息以外,还分别增加了一个表示一个词汇在文档中的相对位置的编码以及一个词汇在文档中的所代表的图像数据的编码。之所以增加上述两种编码,是因为文档的词汇之间的相对位置是能够揭示词与词之间的关系的,而编码进去的图像信息又可以表示一个特殊的字体、字号、颜色等信息。
同样,为了能够进行自监督训练,论文提出了一个Masked Visual-Language Model(MVLM)loss以及Multi-label Document Classification (MDC)loss。对于预训练数据集的选取,模型则选择了IIT-CDIP Test Collection 1.0 数据集,该数据集包含了超过600万个文档以及1100万个文档图片。为了验证预训练模型的效果,论文则选取了三个不同的基准数据集分别对应三个不同的下游任务:
- FUNSD dataset 用于文档布局分析与格式理解;
- SROIE dataset 用于文档信息抽取;
- RVL-CDIP dataset 用于文档分类;
模型的结构,如下图所示:
可以看到,模型使用了BERT为backbone,但是加入了一个2-D位置编码以及图像信息编码。
- 2-D位置编码:与句子中的位置编码不同的是,2-D位置编码一共需要考虑4个坐标点,分别是左上坐标(x0,y0)以及右下坐标(x1,y1)。
- 图像编码: