LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

LayoutLMv2使用了现有的屏蔽视觉语言建模任务,新的文本图像对齐(将文本行与相应的图像区域对齐)和文本图像匹配任务(文档图像和文本内容是否相关)进行pre-train。不同于普通的LayoutLM模型,在fine-tune阶段结合视觉嵌入,LayoutLMv2在pre-train阶段集成视觉信息。同时,将空间感知的自注意机制集成到Transformer架构中,该机制涉及token对的二维相对位置表示。不同于LayoutLM用于建模页面布局的绝对二维位置嵌入,相对位置嵌入明确地为上下文空间建模提供了更广阔的视角

采用五种数据集作为下游任务:表单理解,收据理解,长文档理解,文档图像分类,DocVQA

2. Model Architecture

Text Embedding

由WordPiece标记OCR文本序列,并分配segment([A]/[B]),以及token idx

Visual Embedding

使用ResNet FPN作为视觉编码器主干的体系结构,给定一个文档页面图像I,大小调整为224×224,然后输入到视觉主干中,输出特征映射被平均化为固定尺寸w * h.接下来,将其展平,形成visual token embedding,长度为W×H的序列,然后用线性投影到text embedding的维度

由于无法捕获位置信息,还将一维位置嵌入添加到这些visual token embedding中

对于segment embedding,将所有visual tokens附加到可视段[C]

Layout Embedding

将所有坐标标准化并离散为[0,1000]范围内的整数,并使用两个embedding layer分别嵌入x轴特征和y轴特征,对于text/visual token box计算2D-positional embedding

一个空的边界框=(0,0,0,0,0,0)被附加到特殊标记[CLS]、[SEP]和[PAD]上。

Multi-modal Encoder with Spatial-Aware SelfAttention Mechanism

concatenate visual embedding和text embedding 后加上layout embedding作为第一层的输入

为了有效地建模文档布局中的局部不变性,需要显式地插入相对位置信息。因此,将空间感知自注意机制引入自注意层

这是由两个向量计算的attention score

加入可学习的语义相对位置和空间相对位置的偏差项,在heads之间是不同的,在所有encoder layer中共享,假设(xi,yi)锚定第i个边界框的左上角坐标,获得空间感知注意力

最后,输出向量表示为所有投影值向量相对于标准化空间感知注意分数的加权平均值


3. pre-train tasks

Masked Visual-Language Mode(MVLM)

随机屏蔽一些文本标记,并要求模型恢复被屏蔽的标记。但布局信息仍然存在,模型知道每个mask token在页面上的位置

Text-Image Align(TIA)

在文档图像上随机按行遮盖一部分文本,利用模型的文本部分输出进行词级别二分类,预测每个词是否被覆盖(即[Covered]还是[Not Covered])。文本—图像对齐任务帮助模型对齐文本和图像的位置信息。当同时执行MVLM和TIA时,不考虑MVLM中mask的tokenTIA损失。防止模型学习无用的从[MASK]到[Covered]

Text-Image Matching(TIM)

构造图文失配的负样本,随机地替换或删除一部分文档图像。并对负样本中的图像执行相同的掩蔽和覆盖操作。TIA目标标签在负样本中均设置为[Covered]。

以文档级二分类的方式预测图文是否匹配,以此来对齐文本和图像的内容信息。


4. Result

LayoutLM 2.0 在表单理解数据集 FUNSD 上的实验结果

LayoutLM 2.0 在票据理解数据集 CORD 上的实验结果

LayoutLM 2.0 在票据理解数据集 SROIE 上的实验结果

LayoutLM 2.0 在复杂布局长文档理解数据集 Kleister-NDA 上的实验结果

LayoutLM 2.0 在文档图像分类数据集 RVL-CDIP 上的实验结果和在视觉问答数据集 DocVQA 上的实验结果


5. 消融实验

从1到 2a,在不改变预训练策略的情况下添加了视觉模块,结果表明,仅使用MVLM预训练的LayoutLMv2可以有效地利用视觉信息。

然后,比较了两种跨模态对齐训练TIA和TIM。根据2中的四个结果,这两项任务都显著提高了模型的性能,并且TIA比TIM更有益于模型。同时使用这两项任务比单独使用其中一项更有效。

保留了这三个在模型架构中引入空间感知自我注意机制(SASAM)。将结果2d和3进行比较,SASAM可以进一步提高模型的精度。

最后,在3和4中,UniLMv2可以更好的初始化LayoutLMv2。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值