Robust Layout-aware IE for Visually Rich Documents with Pre-trained Language Models

最新推荐文章于 2024-07-26 13:24:37 发布

Made In Heaven_

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量133

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/qq_48612666/article/details/130342923

版权

Robust Layout-aware IE for Visually Rich Documents with Pre-trained Language Models

发表于ACM SIGIR 2020

团队：Alibaba Group（Mengxi Wei、Yifan He、Qiong Zhang）

CONCLUSIONS

用GCN来编码各种丰富的布局信息，使用基于transformer的预训练语言模型来编码文本信息。
设计了两个微调目标，以充分利用unlabeled的数据并减少注释成本。在两个数据集上的实验结果和Few-shot setting的设置表明，纳入丰富的布局信息和富有表现力的文本表示法可以显著提高提取性能，并降低从视觉丰富的文档中提取信息的注释成本。

ABSTRACT

所提出的方法在发票上的绝对F1值为6.3%，在简历上的绝对F1值为4.7%，优于基于文本的RoBERTa基线。当在几张照片的设置中进行评估时，论文的方法只需要比基线少30倍的注释数据，就能达到相同的性能水平，即90%的F1。

INTRODUCTION

基于Graph和预训练的语言类提取模型，将基于图的IE和预先训练好的LM结合起来，，促进更有效的布局感知的域内微调，并减少在zero-shot和few-shot设置中的注释量。

Graph-based IE with pre-trained LMs

VRDs中特定领域的布局语义融入边缘中，字体类型和字体大小的信息（视觉特征）集成到节点中，以更好地模拟非标准的布局与图的关系。

Layout-aware in-domain fine-tuning.

序列位置关系分类（SPRC）和屏蔽语言模型（MLM）。
SPRC是一个针对两个相邻文本框之间的布局关系的四标签句子分类损失，目的是其目的是为了捕捉给定位置和内容的文本块之间的关系。MLM是一个关于预测被掩盖的标记的交叉熵损失，目的是迫使模型从上下文中学习语义信息。

Zero- and few-shot behavior

从两个实际文档信息提取场景中评估了该模型：发票分析和简历信息提取。对于发票分析，从一家跨国公司的不同部门收集了大量的真实世界的国际发票。这些部门有不同的供应商，有不同的发票格式。在一部分数据集上测试了我们系统的整体性能，并保留了一小部分部门的发票，用于zero-shot和few-show的实验。

few-shot setting

Few-shot setting是一种机器学习中的问题设置，它涉及到在非常少的数据样本上进行学习。

在传统的监督学习中，通常需要大量的标记数据来训练深度神经网络，以使其在未见过的数据上能够进行准确的预测。然而，在许多实际应用场景中，数据可能是有限的，甚至是非常有限的。在这些情况下，深度学习模型需要在非常少的数据样本上进行学习，这就是few-shot setting。

在few-shot setting中，模型需要从极少量的数据样本中学习出一些泛化规律，以在未见过的数据上进行预测。通常，few-shot learning分为两类：一类是以有标签数据为基础的few-shot learning，另一类是以无标签数据为基础的few-shot learning。在这些方法中，通常会利用元学习等技术来提高模型的泛化性能。

文章贡献

是第一个将图形神经网络模块与预先训练好的基于转化器的语言模型相结合的模型，用于编码VRD中的文本和丰富的布局信息。
提出了两个训练任务，在没有标注数据的情况下对模型进行微调，在不使用额外训练数据的情况下进一步提高提取性能。（自监督任务）
在这两个数据集上，论文的模型以显著的幅度超过了强大的RoBERTa基线：对于发票数据集，采用GCN的模型比基线高出约4.8%的F1，而采用两个拟议的无监督微调任务的模型微调后取得了最佳性能，在95.87%的情况下提高了6.3%的F1。对于简历数据集，采用GCN和两个微调的模型目标的模型比RoBERTa的基线高出4.7%。

METHODOLOGY

将GCN与预先训练好的类似BERT的模型结合起来，用域内unlabel的数据对模型进行微调，通过在unlabel的数据上尽可能地优化语言特征（通过预先训练好的基于transformer的语言模型）和视觉特征（通过对unlabel的域内数据进行布局感知的微调）来促进概率学习。

基本的训练程序是使用一个在大型语料库上预训练的强大的基于transformer的语言模型作为编码器的骨干，然后用无监督的目标在领域内知识上对编码器进行微调。最后一步是用标记的数据来训练实体提取模型。过程如下：

使用基于transformer的语言模型（RoBERTa）对文本进行编码，并使用GCN对布局和位置信息进行编码。采用预训练的RoBERTa-BASE初始化LM编码器的权重，并通过两个与训练任务在unlabeled域内数据上对编码器进行微调： RoBERTa中的屏蔽LM和一个新的序列位置关系分类（SPRC）目标。

Problem Setup

将每个文档建模为一组文本框，并对每个文本框应用序列标签。每个文本框对应于graph中的一个节点。如果一个文档有多页的话，每个页面建一个graph。

将一个文档页面定义为图G = (V , E)，其中V是一个页面中的文本框的集合，矩阵E⊂M ×V × V是无向边缘集，其中M是边缘类型的数量。定义了一个基本的无向边缘类型ei, j = (vi , v j )，将一个文本框与它最近的垂直或水平的邻居连接起来。

Pre-trained LM Text Encoder

用RoBERTa的预训练模型来提取文字特征。

在预训练时，BERT使用两个目标：屏蔽语言模型（MLM）和下句预测（NSP）。MLM目标在一个序列中随机掩盖标记，语言模型被训练来恢复被掩盖的标记。NSP目标对原始文本中的两个片段是否相互相邻进行二元分类。

s_i = (w₁⁽ⁱ⁾,w₁⁽ⁱ⁾,…,w_k⁽ⁱ⁾)是一个长度为k的分词后的文本框，作为RoBERTa模型的输入。

每个句子用第一个token的最终隐藏状态[CLS]来表示，通过连接每个句子第一个tokne的最终隐藏状态[CLS]来聚合RoBERTa model的句子输出。表示句子的向量[CLS]作为构建图神经网络所用到的信息，在graph layers上建立页面布局模型。而其他 token embeddings H将与graph layer的输出相连接，作为实体标签的特征（看模型图就能看出来了，[CLS]是用作构件图的，而其他token embedding会与构建的图相结合作为网络的输出编码）。C_i是RoBERTa编码输出的结果。

Graph-based Layout Encoder

由于VRDS文件的视觉特征多样性，所以不能简单以边框的位置进行简单建模

Node-level Features

一个文档页面中的句子转换为graph，将每个graph中的节点vi定义为一个文本框的RoBERTa输出Ci及其字体编码。

假设对于文本框si，文本的字体类型被定义为f_i（用字体名称和字体大小来代表文本字体的具体类型），第一个图层的节点v_i的输入被定义为h_i。

Graph Convolution Network

Node中存储的是文本框级别的文本和格式信息，level则捕捉的是整个页面的布局信息。一个GCN层对一个节点最近的邻居的特征进行卷积，多个层可以对节点之间更复杂的关系进行建模。最后一个GCN层的节点表示被用作实体提取的布局特征。

N_(i)代表连接到i的节点，并且包括i本身，h_i^l是节点i在第l层的表示（学习到了相邻节点的信息，节点i每多一层就可以多学习到跨节点的关系），W^l是权重，b^l是偏置参数，激活函数eLU是指数线性单元。

由于一个文档页面中文本框和文本框之间有会有多种布局关系，有些关系是空间上的（如左边最近的文本框），而有些关系是基于格式化的（如最近的文本框使用较大的字体）。所以上面的公示需要做出修改以适应多种关系。W_t是第t种边缘的权重，N_t是边缘类型的数量。

类似残差网络的操作，加入前几层的信息，作为节点i的隐藏层信息。

Entity extraction

通过GCN的布局编码和预训练语言模型的文本编码，对句子中的每个词进行顺序标记，以提取实体。如模型结构图所示，来自GCN的第i个文本框hLi的最终层输出表示与来自RoBERTa编码器的每个token隐藏状态H相连接（上图中的Gi｜Ei）。
然后，序列标签层被用来预测每个token的实体类型。实体类型用BIO模式在token层面进行编码（用一个softmax来打标签）。

Fine-tuning objectives

有某项任务的数据D。除了训练所有有标签的文档数据Dlabeled之外，还在微调过程中利用大量的无标签数据Dunlabeled，使预先训练好的模型适应新的任务。

Sequences Positional relationship classification

除了旨在表示文档布局信息的图模块外，还试图在微调过程中也利用布局信息。提出了一个名为序列位置关系分类（SPRC）的微调目标，用一些基本的布局信息来充实语言模型的表示。
具体来说，我们从未标记的数据集Dunlabeled中提取严格相邻的文本对，以预测它们属于以下哪种关系类型：左-右、右-左、上-下和下-上。严格相邻意味着这两个文本框应该共享相同的x坐标或y坐标，因此这两个文本框至少有一条边缘是对齐的。两个句子被连接起来作为输入，在它们之间有一个[SEP]标记，句子编码[CLS]被送入一个线性层以预测关系类型。

这项任务旨在从未标记的VRD中捕捉特定领域的布局信息：例如，如果一个专有名词与 "软件工程师 "这样的职位名称对齐，那么这个专有名词很可能是一个公司名称。当用SPRC目标进行微调时，语言模型会被告知哪些术语根据布局是相关的。

相关知识

序列位置关系分类

（Sequence Position Classification）是自然语言处理（NLP）中的一种任务，旨在对文本序列中的不同单词或子序列之间的位置关系进行分类。具体来说，给定一对单词或子序列，该任务的目标是判断它们在原始文本序列中的相对位置，例如判断它们是相邻的、相隔一个单词、相隔多个单词等等。

例如：

假设我们有一个包含两个实体的文本序列：“The United States of America is a country in North America. Washington D.C. is the capital of the United States.” 我们希望确定第一个实体（“The United States of America”）和第二个实体（“Washington D.C.”）之间的位置关系。

为了解决这个问题，可以使用序列位置关系分类方法。具体来说，我们可以使用一个预训练语言模型（例如BERT或GPT）来学习单词或子序列的表示。然后，我们可以将第一个实体和第二个实体分别与其前面和后面的一些单词或子序列一起作为模型的输入。例如，我们可以将模型的输入设置为：“[Mask] is a country in North America. [MASK] [MASK] is the capital of the United States.” 其中，"[MASK]"表示需要预测的位置。

接下来，我们可以使用一个分类器（例如多层感知机或支持向量机）来预测第一个实体和第二个实体之间的位置关系。通常，这个分类器会输出一组概率，表示两个实体之间可能存在的不同位置关系（例如相邻、相隔一个单词、相隔多个单词等等）。根据这些概率，我们可以选择最有可能的位置关系作为预测结果。

eLU

与 Leaky-ReLU 和 PReLU 类似，与 ReLU 不同的是，ELU 没有神经元死亡的问题(ReLU Dying 问题是指当出现异常输入时，在反向传播中会产生大的梯度，这种大的梯度会导致神经元死亡和梯度消失)。它已被证明优于 ReLU 及其变体，如 Leaky-ReLU(LReLU) 和 Parameterized-ReLU(PReLU)。与 ReLU 及其变体相比，使用 ELU 可在神经网络中缩短训练时间并提高准确度。

其公式如下所示：