©PaperWeekly 原创 · 作者 | 樊润泽
单位 | 中科院计算技术研究所
研究方向 | 信息抽取
前两天在 arxiv 刷到了一篇已被 ACL 2022 主会接受的文章,题名《Unified Structure Generation for Universal Information Extraction》,简单看了摘要后整个震惊。作者采用生成式 text to structure 结构统一了信息抽取的四个任务,并且在 13 个数据集上采用全监督、低资源和少样本设置下均取得了 SOTA。
论文标题:
Unified Structure Generation for Universal Information Extraction
论文作者:
Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu
作者单位:
中科院软件所中文信息处理实验室,百度
收录会议:
ACL 2022
论文链接:
https://arxiv.org/abs/2203.12277
Demo链接:
https://universal-ie.github.io/
研究背景与动机
文章主要针对信息抽取的四个任务:命名实体识别、关系抽取、事件抽取和观点抽取。信息抽取旨在从无结构的自然语言文本中抽取出结构化的信息,但是不同的信息抽取任务都有不同的结构,且差异较大。如图 1 所示,实体识别任务一般是采用 span 及其实体类别表示,关系抽取任务一般采用三元组(triplet)结构表示,事件抽取任务一般采用记录(record)表示,观点抽取任务采用三元组(triplet)来表示。
▲ 图1:信息抽取任务的不同结构与统一化信息抽取模型
不同的输出结构使得很难对所有信息抽取任务统一化建模,这样就产生了三个问题:
由于不同的任务、不同的设置(全监督、低资源、少样本、零样本)、不同的作用场景(医学、金融等),研究人员需要设计大量针对特定情况的模型,这是一件极其耗费资源的事情。
不同的任务有很多可以公用的知识,比如从图 1 中的(a)图可以看出,关系抽取需要用到命名实体识别的结果,事件抽取中的论元也是实体,而现在存在大量的针对特定任务的模型无法做到共享这些实体知识。
信息抽取的数据标注是一件极其耗费时间和人力的事情,但由于任务之间的独立,需要对每一个任务都标注数据。
针对上述问题,文章做了如下贡献:
设计了一种结构化抽取语言(Structural Extraction Language, SEL),它能够将四种信息抽取任务的不同结构统一描述,使得模型的输出结构针对不同任务都是一致的。
由于模型可以做多个任务,所以需要一种方式去指导模型做指定的任务,因此作者设计了结构化模式指导器(Structural Schema Instructor, SSI),其实这就是一种 prompt。
由于模型的输出都是符合 SEL 语法的结构化信息,而目前常用的生成式预训练模型如 T5、BART 都是以生成自然语言为主,若直接采用这种预训练模型会影响到模型性能,因此作者专门针对