【论文笔记】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

每天想peach

已于 2022-05-29 13:17:23 修改

阅读量3.6k

点赞数 1

分类专栏：文档信息抽取文章标签：人工智能深度学习计算机视觉

于 2022-05-29 13:09:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OneYearIsEnough/article/details/125029834

版权

文档信息抽取专栏收录该内容

5 篇文章 1 订阅

订阅专栏

文章目录

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
基本信息
摘要
模型结构
实验
总结

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

基本信息

论文链接：arxiv
发表时间：2022
应用场景：文档信息抽取

摘要

存在什么问题	解决了什么问题
1. 自从LayoutLM提出后，有很多基于自监督预训练的多模态技术在文档理解任务取得了瞩目的成绩，在文本模态上基本保持一致，采取MLM预训练策略，但是在图像模态上的预训练任务往往是不同的，这些不同无疑增加了多模态特征学习的难度。	1. 提出了一个采取统一文本和图像掩膜任务并应用于Document AI的多模态预训练模型——LayoutLMv3。 2. 不再需要预训练CNN或者Faster-RCNN进行视觉特征抽取。 3. LayoutLMv3不论在text-centric task还是image-centric task上均取得了SOTA。

模型结构

Embedding

Text Embedding

采取预训练好的RoBERTa生成每个token的 text embedding。

Layout Embedding

和v1、v2不同的是，这里采用了segment level layout emebdding，即每个token都共用了ocr检测框的坐标，进而生成相应的embedding vector，这么做的原因是每个ocr框中的单词通常都代表相同的语义信息。

Image Embedding

不同于先前的文档理解多模态模型，大都需要一个CNN或者Faster-RCNN抽取图片上的视觉信息。

从VIT收到启发，直接采用VIT的预处理策略：图片resize->分patch->线性映射，组成shape= $hw/patch\_size^2, d]$ 的tensor，再加上其1d position embedding，就构成了视觉特征。

这样做降低了模型参数量、移除了相对较复杂的预处理流程。

作者通过先前实验发现这里用1d position embedding就够了，因为2d position embedding并没有收益。

Self-attention

沿用layoutLMv2的spatial aware self attention。

Pre-training Objectives

Masked Language Modeling(MLM)

每次mask掉30%的token。

不再是随机、孤立的mask掉某个token，而是一次性mask一定长度的tokens。长度从泊松分布（λ=3）中抽样确定。从视觉上下文token（ $X^{M'}$ ）以及文本上下文token（ $Y^{L'}$ ）来预测这些被mask掉的token。注意视觉信息要同时被mask掉。

Masked Image Modeling(MIM)

随机mask掉约40%的image toke，mask策略采用blockwise masking strategy。（具体参照Beit）。

被mask掉的patch通过image tokenizer转化为离散的数字（image tokenizer来源于预训练DiT），进而对这些masked patch进行预测即可。

Word-Patch Alignment(WPA)

前俩预训练任务没有显式的做visual和text之间的模态对齐。

对于前两个任务所产生的输入，这里会对每个text token赋予<aligned>以及<unaligned>标签。

对于那些text token没被MLM掉，但是被MIM掉（每个text token会有其位置信息的）的，赋予<unaligned>标签。对于那些没被MLM掉，也没被MIN掉的，赋予<aligned>标签。

对于以上被标记了的token，通过两层FC进行预测是aligned还是unaligned，所以是一个二分类。

这里要忽略掉那些被MLM掉的text token，即它们不参与loss计算，这么做事为了防止模型从masked text以及image patch之间学到一些没什么用的关系。

实验

Base和Large模型均在多数数据集上取得SOTA。
文档版面分析任务上，仅用视觉模态作为输入抽取图像特征后输入给Cascade R-CNN的Neck，取得SOTA效果。
消融实验，三个预训练任务全上效果是最好的。

总结

LayoutLMv3对LayoutLM系列模型的预训练方法进行了重新设计，不再有视觉模型，转而采用VIT代替，减少了模型参数。采用MLM、MIM以及MPA三项预训练任务来学习多模态特征表示，在image-centric以及text-centric任务上取得多个SOTA。
RoBerta、Beit的后续学习。

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

文档信息抽取模型LayoutLMv3
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。