【自然语言处理】【信息抽取】UIE：用于通用信息抽取的统一结构生成

本文链接：https://blog.csdn.net/bqw18744018044/article/details/124325208

用于通用信息抽取的统一结构生成 《Unified Structure Generation for Universal Information Extraction》

论文地址：https://arxiv.org/pdf/2203.12277.pdf

一、简介

信息抽取( $\text{IE}$ )的目标是从无结构化文本中识别和结构化用户指定的信息。 $\text{IE}$ 任务由于不同的目标(实体、关系、事件、情感等)、不同的结构(spans、triplets、record等)和特定的需求模式而高度的多样性。当前，大多数的 $\text{IE}$ 方法都是针对具体的任务，对于不同的 $\text{IE}$ 任务会有专用的架构、独立的模型、特定的知识来源。

二、通用信息抽取的统一结构生成

信息抽取的任务可以被形式化为 $\text{text-to-structure}$ 的问题。本文的目标是通过单个框架将不同的 $\text{IE}$ 任务统一建模为 $\text{text-to-structure}$ 任务，即在统一的模型中共享相同的底层操作以及不同的转换能力。正式来说，给定一个预定义模式 $s$ 和文本 $x$ ，通用 $\text{IE}$ 模型需要生成一个模式 $s$ 指明的文本中 $x$ 所包含结构化信息。

这里主要存在两个挑战。首先，由于 $\text{IE}$ 任务的多样性，有许多不同的目标结构需要抽取，例如：实体、关系和事件等。其次， $\text{IE}$ 任务通常针对不同的需求需要使用不同的schema，因此需要自适应的控制抽取过程。

本小节描述了如何在统一框架内学习和执行各种 $\text{IE}$ 任务，称该框架为 $\text{UIE}$ 。具体来说，设计了结构化抽取语言 $\text{SEL}$ 来将不同的抽取结构进行统一编码，即将实体、关系和事件编码成统一表示。然后，设计了结构化schema指导器 $\text{SSI}$ ，其是一个基于schema的prompt机制，用于控制 $\text{UIE}$ 模型如何抽取、如何关联和如何生成。

1. 用于统一结构编码的结构化抽取语言 $\text{SEL}$

请添加图片描述

基于上面的讨论， $\text{IE}$ 结构生成能够被分解为两个原子操作。

定位(spotting)：从文本中定位目标片段，例如：实体和事件中的触发词。
关联(associating)：按照预定义的期望将不同的信息片段关联在一起，例如实体对间的关系；

不同的 $\text{IE}$ 结构能够通过原子结构生成操作进行组合。

具体来说，设计了统一结构抽取语言 $\text{SEL}$ ，该语言能够通过 $\text{spotting-associating}$ 结构编码不同的 $\text{IE}$ 结构。如上图 $(a)$ 所示，每个 $\text{SEL}$ 表达式包含三种类型的语义单元：

(1) $\text{SPOTNAME}$ ：表示原始文本中需要被定位信息的类型；

(2) $\text{ASSONAME}$ ：表示原始文本中需要被抽取的、特定类型的关联；

(3) $\text{INFOSPAN}$ ：表示原始文本中需要被定位或者关联的文本片段；

上图 $(b)$ 展示了 $\text{SEL}$ 如何表示实体、关系和事件的结构。其中包含三个实体，每个实体都使用一个 $\text{spotting}$ 结构表示，即 $\text{person:Steve}$ 、 $\text{organization:Apple}$ 和 $\text{time:1997}$ 。 $\text{work for}$ 表示实体 $\text{Steve}$ 和 $\text{Apple}$ 间的一个关系。此外，事件也可以被表示成关联结构。事件的 $\text{trigger}$ 是一个 $\text{spotting}$ 结构 $\text{"start-postion:became"}$ ，事件的 $\text{arguments}$ 则是被触发词关联的三个结构： $\text{(employee,Steve)}$ 、 $\text{(employer,Apple)}$ 和 $\text{(time,1997)}$ 。

$\text{SEL}$ 具有如下优势：

(1) 能够统一编码各种 $\text{IE}$ 结构，因此能将不同的 $\text{IE}$ 任务统一建模为 $\text{text-to-structure}$ 过程；

(2) 使用统一结构高效表示所有的抽取结果，天然适合执行联合抽取；

(3) 输出结构紧密，大大减低了编码的复杂度；

举例来说，实体识别和事件检测两种不同的任务都可以使用相同的语法 $\text{(SpotName: InfoSpan)}$ 。此外，关系抽取和事件抽取分别是二元结构 $\text{entity-relation-entity}$ 和 $N$ 元结构 $\text{event-arguments}$ ，但它们都能够使用语法 $\text{(SpotName: InfoSapn(AssName: InfoSpane),...)}$ 。这种统一的结构化抽取语言能够在不设计任务相关结构的情况下，使 $\text{UIE}$ 能够从不同的 $\text{IE}$ 任务中学习。

2. 用于可控 $\text{IE}$ 结构生成的结构化Schema指导器 $\text{SSI}$

请添加图片描述

$\text{UIE}$ 通过使用 $\text{SEL}$ 来为不同的 $\text{IE}$ 任务生成统一的结构。但是，不同的 $\text{IE}$ 任务具有不同的schemas，因此如何在抽取过程中自适应的生成期望的信息是一个挑战。例如，给定一个句子 $\text{Steve became CEO of Apple in 1997.}$ ，期望生成三个实体结构 $\text{((person: Steve)(organization: Apple)(Time: 1997))}$ 和一个事件结构 $\text{(start position: became(employee: Steve)(employer: Apple))}$ 。为了能够实现这个目标，本文提出了结构化schema指导器 $\text{SSI}$ ，其是一个基于schema的prompt机制，用于控制模型来确定哪些信息需要被定位，哪些信息需要被关联。

上图展示了整个 $\text{UIE}$ 框架。正式来说， $\text{UIE}$ 将 $\text{SSI(s)}$ 和文本序列 $\text{(x)}$ 作为输入，并生成一个 $\text{SEL(y)}$
$y=\text{UIE}(s\oplus x)\tag{1}$
其中， $x=[x_1,\dots,x_{|x|}]$ 是文本序列， $s=[s_1,\dots,s_{|s|}]$ 是结构化schema指导器，且 $y=[y_1,\dots,y_{|y|}]$ 是 $\text{SEL}$ 序列。

2.1 结构化Schema指导器 $\text{SSI}$

结构化Schema指导器 $\text{SSI}$ 是由基于schema的prompt构成，并使用其作为生成的前缀。

具体来说，与 $\text{spotting-association}$ 结构相对于， $\text{SSI}$ 包含三种类型的片段。

(1) $\text{SPOTNAME}$ ：特定信息抽取任务中的需要被定位信息的名称，例如 $\text{NER}$ 任务中的"person"；

(2) $\text{ASSONAME}$ ：关联名称，例如关系抽取中的"work for"；

(3) 特殊符号 $\text{[spot],[asso],[text]}$ ：这些符号被添加到 $\text{SPOTNAME}$ 、 $\text{ASSONAME}$ 和输入文本之前；

$\text{SSI}$ 中的所有tokens都会被拼接并放在原始序列之前。如上图所示，对于 $\text{UIE}$ 的整个输入形式为
$\begin{aligned} s\oplus x=&[s_1,s_2,\dots,s_{|s|},x_1,x_2,\dots,x_{|x|}] \\ =&[\textbf{[spot]},\dots,\textbf{[spot]},\dots,\\ &\textbf{[asso]},\dots,\textbf{[asso]},\dots,\\ &\textbf{[text]},x_1,x_2,\dots,x_{|x|}] \end{aligned}\tag{2}$
举例来说，若按照关系模型"the person work for the company"来从句子中抽取信息，那么 $\text{SSI}$ 就位 $\text{[spot] person [spot] company [asso] work for [text]}$ 。给定一个记为 $s$ 的 $\text{SSI}$ ，那么 $\text{UIE}$ 首先会编码输入文本 $x$ ，然后通过编码器-解码器风格的架构，以线性化 $\text{SEL}$ 的方式来生成目标结构 $y$ 。

基于schema的prompt能够：

(1) 能够高效的指导 $\text{UIE}$ 进行 $\text{SEL}$ 生成，因此通用的 $\text{IE}$ 能够能够被转移到新的 $\text{IE}$ 任务中；

(2) 能够自适应的控制定位哪些信息、关联哪些信息和生成哪些信息，所以不同类型任务和标签的知识可以被更好的共享；

2.2 基于 $\text{UIE}$ 的结构生成

给定 $\text{SSI}$ s和文本x作为输入， $\text{UIE}$ 通过生成线性化的 $\text{SEL}$ 来抽取目标信息。本文使用编码器-解码器风格的架构来执行 $\text{text-to-SEL}$ 的过程。给定一个文本序列 $x$ 和schema指导器 $s$ ， $\text{UIE}$ 首先会计算每个token的隐藏表示 $\textbf{H}=[s_1,\dots,s_{|s|},x_1,\dots,x_{|x|}]$ ：
$\textbf{H}=\text{Encoder}(s_1,\dots,s_{|s|},x_1,\dots,x_{|x|}) \tag{3}$
其中， $\text{Encoder}(\cdot)$ 是一个Transformer编码器。然后， $\text{UIE}$ 会以自回归的方式将输入解码为线性化的 $\text{SEL}$ 。解码的第 $i$ 步， $\text{UIE}$ 会生成 $\text{SEL}$ 序列中的第 $i$ 个token $y_i$ ，并解码出状态 $\textbf{h}_i^d$
$y_i,\textbf{h}_i^d=\text{Decoder}([\textbf{H};\textbf{h}_1^d,\dots,\textbf{h}_{i-1}^d]) \tag{4}$
其中， $\text{Decoder}(\cdot)$ 是一个Transformer解码器，其预测条件概率 $p(y_i|y_{<i},x,s)$ 。最终，当输出为 $\text{<eos>}$ 时 $\text{Decoder}(\cdot)$ 就完成了预测。然后，将预测的 $\text{SEL}$ 转换为需要抽取的信息。

先前的 $\text{IE}$ 将标签看作是具体的符号， $\text{UIE}$ 则通过 $\text{text-to-structure}$ 生成范式将标注转换成了自然语言中的token。通过将标签和结构转换为语言， $\text{UIE}$ 能够有效的将预训练语言模型 $\text{BART}$ 和 $\text{T5}$ 中的知识进行迁移，并且相关的任务能够轻易的共享这些知识。

三、预训练

本小节主要包括：(1) 如何预训练大规模的 $\text{UIE}$ 模型，其能够为不同的 $\text{IE}$ 任务捕获通用的 $\text{IE}$ 能力；(2) 如何微调 $\text{UIE}$ 来适应不同类型的 $\text{IE}$ 任务。

具体来说，作者先收集了几个大规模的数据集(包括：结构化的知识库、无结构化的文本以及平行语料)；然后，将这些异构的数据集进行统一并预训练 $\text{UIE}$ 模型；最后，通过请求式的微调来使预训练模型 $\text{UIE}$ 适应下游的各种 $\text{IE}$ 任务。

1. 语料构建

$\text{UIE}$ 需要编码文本，映射文本到结构，并解码出有效的结构。因此，作者从网络中收集了大规模的预训练语料：

$\mathcal{D}_{pair}$ 是一个 $\text{text-structure}$ 平行语料，每个实例都是一个平行对，即token序列 $x$ 和结构化记录 $y$ 。作者通过使用英文 $\text{Wikipedia}$ 与 $\text{Wikidata}$ 进行对齐，从而收集了大规模的平行 $\text{text-structure}$ 对。 $\mathcal{D}_{pair}$ 被用于预训练 $\text{UIE}$ 的 $\text{text-to-structure}$ 迁移能力。

$\mathcal{D}_{record}$ 是一个结构化的数据集，每个实例都是一个结构化的记录 $y$ 。作者从 $\text{ConceptNet}$ 和 $\text{Wikidata}$ 中收集结构化数据。 $\mathcal{D}_{record}$ 被用来预训练 $\text{UIE}$ 的结构化解码能力。

$\mathcal{D}_{text}$ 是无结构化文本数据集。作者使用英文 $\text{Wikipedia}$ 中的所有普通文本。 $\mathcal{D}_{text}$ 被用来预训练 $\text{UIE}$ 的语义编码能力。

2. 预训练

2.1 使用 $\mathcal{D}_{pair}$ 进行 $\text{text-to-structure}$ 预训练

为了能够使模型捕获基本的 $\text{text-to-structure}$ 映射能力，这里是以 $\mathcal{D}_{pair}=\{(x,y)\}$ 来预训练模型 $\text{UIE}$ 。具体来说，对于给定的平行样本对 $(x, y)$ ，抽取需要定位的类型 $s_{s+}$ 和 $y$ 中的关联类型 $s_{a+}$ 来构成正样本 $s_+=s_{s+}\cup s_{a+}$ 。然而，仅使用这样的正样本来训练 $\text{UIE}$ ，模型仅仅会简单的记住预训练数据中的三元组。为了能够学习到通用的映射能力，这里也自动构造了负样本。即采样负的定位类型 $s_{s-}$ 和负的关联类型集合 $s_{a-}$ ，然后拼接出最终的数据集 $s_{meta}=s_+\cup s_{s-}\cup s_{a-}$ 。

举例来说，"person"和“word”在记录 $\text{"((person: Steve)(work for: Apple))"}$ 中是正样本，并且采样"vehicle"和"located in"作为样样本。最后， $\text{text-to-structure}$ 预训练目标函数为
$\mathcal{L}_{Pair}=\sum_{(x,y)\in\mathcal{D}_{pair}}\;-\text{log}\;p(y|x,s_{meta};\theta_e,\theta_d) \tag{5}$
其中， $\theta_e$ 和 $\theta_d$ 是编码器和解码器的参数。

2.2 使用 $\mathcal{D}_{record}$ 进行结构化生成预训练

为了预训练 $\text{UIE}$ 对于由 $\text{SEL}$ 和 $\text{schema}$ 定义结构的生成能力，这里使用 $\mathcal{D}_{record}$ 来预训练 $\text{UIE}$ 。将 $\text{UIE}$ 的解码器作为一个结构化语言模型，且 $\mathcal{D}_{record}$ 中的每个记录都是一个 $\text{SEL}$ 表达式，则
$\mathcal{L}_{Record}=\sum_{y\in\mathcal{D}_{record}}\;-\text{log}\;p(y_i|y_{<i};\theta_d) \tag{6}$
通过为结构化生成进行预训练，解码器能够捕获 $\text{SEL}$ 的规律性和不同标签间的交互。

2.3 使用 $\mathcal{D}_{text}$ 改进语义表示

在 $\text{text-to-structure}$ 预训练的过程中，继续在 $\mathcal{D}_{text}$ 上使用 $\text{MLM}$ 来预训练 $\text{UIE}$ ，从而改进 $\text{UIE}$ 的语义表示能力。
$\mathcal{L}_{Text}=\sum_{x\in\mathcal{D}_{text}}\;-\text{log}\;p(x''|x';\theta_e,\theta_d) \tag{7}$
其中， $x^{'}$ 是被遮蔽部分token的原文本， $x^{''}$ 是被遮蔽的token片段。这个预训练能够有效的缓解特殊语义符号 $\text{SPOTNAME}$ 和 $\text{ASSONAME}$ 的语义的灾难性遗忘。

2.4 最终的预训练损失函数

使用 $\text{T5-v1.1-base}$ 和 $\text{T5-v1.1-large}$ 来初始化 $\text{UIE-base}$ 和 $\text{UIE-large}$ 。最终的目标函数合并了上面的所有任务
$\mathcal{L}=\mathcal{L}_{Pair}+\mathcal{L}_{Record}+\mathcal{L}_{Text} \tag{8}$
在实现中，将所有的预训练数据都表示为三元组。对于 $\mathcal{D}_{text}$ 中的文本数据 $x$ ，构建三元组 $(\text{None},x',x'')$ ，其中 $x^{'}$ 是被遮蔽部分token的原始文本， $x^{''}$ 是被遮蔽的token片段。对于 $\mathcal{D}_{pair}$ 中的 $\text{text-record}$ 数据 $(x, y)$ ，通过为每个 $\text{text-record}$ 采样meta-schema来构造三元组 $(s, x, y)$ 。对于 $\mathcal{D}_{record}$ 中的记录数据 $y$ ，采用 $(\text{None,None},y)$ 作为输入三元组。

3. 按需微调

请添加图片描述

给定一个预训练好的 $\text{UIE}$ 模型，通过模型微调能够快速调整模型来适应不同的 $\text{IE}$ 任务和设置。给定一个标注好的语料 $\mathcal{D}_{task}={(s,x,y)}$ ，使用交叉熵损失函数来微调 $\text{UIE}$
$\mathcal{L}_{FT}=\sum_{(s,x,y)\in\mathcal{D}_{Task}}\;-\text{log}\;p(y|x,s;\theta_e,\theta_d) \tag{9}$
为了缓解自回归模型在解码过程中的曝光偏差，设计了一种 $\textbf{Rejection}$ 机制来进行更加有效的微调。具体来说，给定一个实例 $(s, x, y)$ ，先使用 $\text{SEL}$ 来编码 $y$ ，然后以概率 $p_{\epsilon}$ 随机的向 $\text{SPOTNAME}$ 和 $\text{ASSONAME}$ 中插入 $[\text{NULL}]$ ，来构造负样本 $(\text{SPOTNAME,[NULL]})$ 和 $(\text{ASSONAME,[NULL]})$ 。举例来说，上表中 $f a c i l i t y$ 在prompt中是负spot，也就是在矩阵"Steve became CEO of Apple in 1997"中并没有 $f a c i l i t y$ 实体。因此，随机将噪音 $\text{"(facility:[NULL])"}$ 加入至record中。通过这种方式， $\text{UIE}$ 能够通过生成 $\text{[NULL]}$ 来学习拒绝错误的生成。