信息抽取新SOTA！首个结构化生成式信息抽取预训练模型，一统信息抽取四大任务...-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124053964

该研究提出了一种名为UIE的预训练模型，旨在统一信息抽取的命名实体识别、关系抽取、事件抽取和观点抽取四大任务。通过结构化抽取语言SEL和结构化模式指导器SSI，UIE模型能处理不同任务的输出结构，并在13个数据集上实现了全监督、低资源和少样本设置下的SOTA性能。预训练阶段采用了Wikipedia、Wikidata和ConceptNet数据，设计了三种预训练任务。实验结果显示，UIE在低资源场景下表现出色，展示了其强大的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 樊润泽

单位 | 中科院计算技术研究所

研究方向 | 信息抽取

前两天在 arxiv 刷到了一篇已被 ACL 2022 主会接受的文章，题名《Unified Structure Generation for Universal Information Extraction》，简单看了摘要后整个震惊。作者采用生成式 text to structure 结构统一了信息抽取的四个任务，并且在 13 个数据集上采用全监督、低资源和少样本设置下均取得了 SOTA。

论文标题：

Unified Structure Generation for Universal Information Extraction

论文作者：

Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu

作者单位：

中科院软件所中文信息处理实验室，百度

收录会议：

ACL 2022

论文链接：

https://arxiv.org/abs/2203.12277

Demo链接：

https://universal-ie.github.io/

研究背景与动机

文章主要针对信息抽取的四个任务：命名实体识别、关系抽取、事件抽取和观点抽取。信息抽取旨在从无结构的自然语言文本中抽取出结构化的信息，但是不同的信息抽取任务都有不同的结构，且差异较大。如图 1 所示，实体识别任务一般是采用 span 及其实体类别表示，关系抽取任务一般采用三元组（triplet）结构表示，事件抽取任务一般采用记录（record）表示，观点抽取任务采用三元组（triplet）来表示。

▲ 图1：信息抽取任务的不同结构与统一化信息抽取模型

不同的输出结构使得很难对所有信息抽取任务统一化建模，这样就产生了三个问题：

由于不同的任务、不同的设置（全监督、低资源、少样本、零样本）、不同的作用场景（医学、金融等），研究人员需要设计大量针对特定情况的模型，这是一件极其耗费资源的事情。
不同的任务有很多可以公用的知识，比如从图 1 中的（a）图可以看出，关系抽取需要用到命名实体识别的结果，事件抽取中的论元也是实体，而现在存在大量的针对特定任务的模型无法做到共享这些实体知识。
信息抽取的数据标注是一件极其耗费时间和人力的事情，但由于任务之间的独立，需要对每一个任务都标注数据。

针对上述问题，文章做了如下贡献：

设计了一种结构化抽取语言（Structural Extraction Language, SEL），它能够将四种信息抽取任务的不同结构统一描述，使得模型的输出结构针对不同任务都是一致的。
由于模型可以做多个任务，所以需要一种方式去指导模型做指定的任务，因此作者设计了结构化模式指导器（Structural Schema Instructor, SSI），其实这就是一种 prompt。
由于模型的输出都是符合 SEL 语法的结构化信息，而目前常用的生成式预训练模型如 T5、BART 都是以生成自然语言为主，若直接采用这种预训练模型会影响到模型性能，因此作者专门针对