信息抽取新SOTA!首个结构化生成式信息抽取预训练模型,一统信息抽取四大任务...

该研究提出了一种名为UIE的预训练模型,旨在统一信息抽取的命名实体识别、关系抽取、事件抽取和观点抽取四大任务。通过结构化抽取语言SEL和结构化模式指导器SSI,UIE模型能处理不同任务的输出结构,并在13个数据集上实现了全监督、低资源和少样本设置下的SOTA性能。预训练阶段采用了Wikipedia、Wikidata和ConceptNet数据,设计了三种预训练任务。实验结果显示,UIE在低资源场景下表现出色,展示了其强大的泛化能力。
摘要由CSDN通过智能技术生成

93193fa952ce8a9ca2005e6ab7c16b18.gif

©PaperWeekly 原创 · 作者 | 樊润泽

单位 | 中科院计算技术研究所

研究方向 | 信息抽取

前两天在 arxiv 刷到了一篇已被 ACL 2022 主会接受的文章,题名《Unified Structure Generation for Universal Information Extraction》,简单看了摘要后整个震惊。作者采用生成式 text to structure 结构统一了信息抽取的四个任务,并且在 13 个数据集上采用全监督、低资源和少样本设置下均取得了 SOTA。

687100fc1300d75a6bd54cd562edd320.png

论文标题:

Unified Structure Generation for Universal Information Extraction

论文作者:

Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu

作者单位:

中科院软件所中文信息处理实验室,百度

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2203.12277

Demo链接:

https://universal-ie.github.io/

b49e996b9ee3911a0f34ee9adf3abda3.png


研究背景与动机

文章主要针对信息抽取的四个任务:命名实体识别、关系抽取、事件抽取和观点抽取。信息抽取旨在从无结构的自然语言文本中抽取出结构化的信息,但是不同的信息抽取任务都有不同的结构,且差异较大。如图 1 所示,实体识别任务一般是采用 span 及其实体类别表示,关系抽取任务一般采用三元组(triplet)结构表示,事件抽取任务一般采用记录(record)表示,观点抽取任务采用三元组(triplet)来表示。

95a1ee3b06291b81cc35f36c3c8df487.png

▲ 图1:信息抽取任务的不同结构与统一化信息抽取模型

不同的输出结构使得很难对所有信息抽取任务统一化建模,这样就产生了三个问题:

  1. 由于不同的任务、不同的设置(全监督、低资源、少样本、零样本)、不同的作用场景(医学、金融等),研究人员需要设计大量针对特定情况的模型,这是一件极其耗费资源的事情。

  2. 不同的任务有很多可以公用的知识,比如从图 1 中的(a)图可以看出,关系抽取需要用到命名实体识别的结果,事件抽取中的论元也是实体,而现在存在大量的针对特定任务的模型无法做到共享这些实体知识。

  3. 信息抽取的数据标注是一件极其耗费时间和人力的事情,但由于任务之间的独立,需要对每一个任务都标注数据。

针对上述问题,文章做了如下贡献:

  1. 设计了一种结构化抽取语言(Structural Extraction Language, SEL),它能够将四种信息抽取任务的不同结构统一描述,使得模型的输出结构针对不同任务都是一致的。

  2. 由于模型可以做多个任务,所以需要一种方式去指导模型做指定的任务,因此作者设计了结构化模式指导器(Structural Schema Instructor, SSI),其实这就是一种 prompt。

  3. 由于模型的输出都是符合 SEL 语法的结构化信息,而目前常用的生成式预训练模型如 T5、BART 都是以生成自然语言为主,若直接采用这种预训练模型会影响到模型性能,因此作者专门针对

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值