通用文档理解模型 - LayoutLM: Pre-training of Text and Layout for Document Image Understanding

最新推荐文章于 2024-06-20 08:16:00 发布

code7thday

最新推荐文章于 2024-06-20 08:16:00 发布

阅读量526

点赞数

分类专栏：深度学习论文

本文链接：https://blog.csdn.net/weixin_43208423/article/details/118865235

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

论文

1 篇文章 0 订阅

订阅专栏

1. 算法背景与动机

近年来，以BERT为代表的预训练模型在许多NLP任务场景下，被成功地应用。但是，许多预训练模型只关注对纯文本信息的操作，而忽略了文档信息中的样式和位置等信息，这些信息这对我们成功地理解文档数据非常关键。许多在文档理解领域提出的算法中，总体有以下两个缺陷：

这些方法标注的训练数据，并没有探索使用大量的无标签数据来进行预训练的方式；
这些方法只利用了图像数据或者利用了文本数据，并没有将两者结合。

深度学习时代，许多模型依赖于数据驱动，而通常在不少场景下，我们第一时间得不到大量标注好的数据，因此利用无标签数据来进行自监督学习（self-supervised）成为了一种解决办法。所以，论文首次提出了结合图像信息以及文本信息的预训练模型LayoutLM，并且在多个NLP下游任务中取到了SOTA（2020.1.16）。

3. 模型结构

模型受到了BERT的启发，输入的数据除了文本数据加上位置编码信息以外，还分别增加了一个表示一个词汇在文档中的相对位置的编码以及一个词汇在文档中的所代表的图像数据的编码。之所以增加上述两种编码，是因为文档的词汇之间的相对位置是能够揭示词与词之间的关系的，而编码进去的图像信息又可以表示一个特殊的字体、字号、颜色等信息。
同样，为了能够进行自监督训练，论文提出了一个Masked Visual-Language Model（MVLM）loss以及Multi-label Document Classification （MDC）loss。对于预训练数据集的选取，模型则选择了IIT-CDIP Test Collection 1.0 数据集，该数据集包含了超过600万个文档以及1100万个文档图片。为了验证预训练模型的效果，论文则选取了三个不同的基准数据集分别对应三个不同的下游任务：

FUNSD dataset 用于文档布局分析与格式理解；
SROIE dataset 用于文档信息抽取；
RVL-CDIP dataset 用于文档分类；

模型的结构，如下图所示：
在这里插入图片描述
可以看到，模型使用了BERT为backbone，但是加入了一个2-D位置编码以及图像信息编码。

2-D位置编码：与句子中的位置编码不同的是，2-D位置编码一共需要考虑4个坐标点，分别是左上坐标（x0,y0）以及右下坐标（x1,y1）。
图像编码：

4. 实验结果

code7thday

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
通用文档理解模型 - LayoutLM: Pre-training of Text and Layout for Document Image Understanding

1. 算法背景近年来，以BERT为代表的预训练模型在许多NLP任务场景下，被成功地应用。但是，许多预训练模型只关注对纯文本信息的操作，而忽略了文档信息中的样式和位置等信息，这对我们成功地理解文档数据非常关键。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示；增加了
复制链接

扫一扫

专栏目录