通用信息抽取UIE论文笔记

最新推荐文章于 2024-05-29 20:12:10 发布

J_Xiong0117

最新推荐文章于 2024-05-29 20:12:10 发布

阅读量2.1k

点赞数 1

分类专栏：前沿技术paper 自然语言处理日常随记文章标签：自然语言处理知识图谱深度学习

本文链接：https://blog.csdn.net/u013010473/article/details/124987819

版权

自然语言处理同时被 3 个专栏收录

82 篇文章 26 订阅

订阅专栏

日常随记

38 篇文章 3 订阅

订阅专栏

前沿技术paper

13 篇文章 2 订阅

订阅专栏

一.研究背景与动机

信息抽取

目的

信息抽取旨在从非结构化的自然语言文本中抽取出结构化的信息。

主要任务

命名实体识别
关系抽取
事件抽取
观点抽取

主要设置

全监督
低资源
少样本
零样本

作用场景

医疗
金融
法律
美业
农业
教育

信息抽取现有的问题

任务难度大，落地成本居高不下。
1）不同的信息抽取任务拥有差异较大的输出结构，难以统一化建模：

实体识别任务一般是采用span及其实体类别表示
关系抽取任务一般采用三元组（triplet）结构表示
事件抽取任务一般采用记录（record）表示
观点抽取任务一般采用三元组（triplet）结构表示

2）不同任务/设置/作用场景，需要设计大量特定模型，极其耗费资源
3）不同的任务有很多本可以共用的知识，但现有技术无法做到共享：

关系抽取需要用到命名实体识别的结果
事件抽取中的论元也是实体

4）不同信息抽取任务之间的独立，导致需要对每个任务都单独进行数据标注，极其耗费时间和人力

二.通用信息抽取UIE

1.简介

为了解决现有信息抽取技术所面临的问题，首个结构化生成式信息抽取预训练语言模型UIE被提出，一统了信息抽取四大任务。

2.结构

在这里插入图片描述

3.主要贡献

1）提出了一种统一的文本到结构（text-to-structure）的生成架构UIE

可以对不同IE任务进行通用建模
自适应地生成目标结构
并从不同的知识源协同学习通用IE能力

2）设计了一种结构化抽取语言（Structural Extraction Language，SEL）将异构的IE结构编码成统一表示，使得模型的输出结构对不同任务都是一致的

3）提出结构化模式指导器（structural schema instructor，SSI）通过prompt指导UIE模型在多任务架构中做指定的任务:

发现（spot）什么
关联（associate）什么
生成（generate）什么

4) 预训练了第一个文本到结构（text-to-structure）的预训练提取模型

由于UIE模型的输出都是符合SEL语法的结构化信息
目前常用的生成式预训练模型如T5、BART都是以生成自然语言为主，直接采用这种预训练模型会影响到UIE模型性能
专门针对text to structure的结构预训练了一个大模型

4.结构化抽取语言SEL

将信息抽取任务的目标拆解成两个原子操作Spotting和Associating，SEL可以对这两个原子操作进行表示，不同的任务只要组合不同的原子操作对应结构即可统一表示：

Spotting：指在输入的原句中找到目标信息片段，比如说实体识别中某个类型的实体，事件抽取中的触发词和论元都是原句中的片段。
Associating：指找出Spotting输出的信息片段之间的关系，比如关系抽取中两个实体之间的关系，或事件抽取中论元和触发词之间的关系。
Spot Name：指目标信息片段的类别，在实体抽取中指实体类别，在事件抽取中可以指事件类型和论元类别
Info Span：Spotting操作的输出，即原句中的目标信息片段
Asso Name：指两个信息片段之间的关系类型，也就是Associating操作的输出

5.结构化模式指导器SSI

有了SEL语法，模型统一了不同任务的输出结构。而SSI则是一种基于Schema的prompt，当输入句子时，在句子前面拼接上对应的prompt，即可让模型做对应的任务。
在这里插入图片描述

用s表示SSI，用x表示需要输入的原始句子，UIE表示由transformer的Encoder和Decoder组成的UIE模型：
在这里插入图片描述

输出y就是采用SEL语法描述的结构化数据：
在这里插入图片描述

将s和x拼接后输入至Encoder,得到每一个token的隐层表示：
在这里插入图片描述

然后使用隐层表示在Decoder端生成目标结构化信息：
在这里插入图片描述

6.预训练

1）预训练数据

主要由Wikipedia、Wikidata和ConceptNet三部分组成，作者通过这三部分数据构造了如下三种形式的预训练数据：

D-pair:(token sequence x,structured record y)，数据表示为（s,x,y）
D-record:只有基于SEL语法的结构性record，数据表示为（None，None，y)
D-text:只有无结构的原始文本数据，做masked language model tasks，数据表示为（None，x’,x"）

2）预训练任务

Text-to-Structure(D-pair):捕获基本的文本到结构的映射能力
在这里插入图片描述

Structure Generation(D-record):生成由SEL和模式定义的有效结构的能力
在这里插入图片描述

Retrofitting Semantic Representation(D-text):改造UIE的语义表示能力
在这里插入图片描述

最终将三个Loss相加作为UIE最终的Loss：
在这里插入图片描述

3）参数初始化

UIE采用的模型是T5-v1.1-base和T5-v1.1-large作为UIE-base和UIE-large，模型的参数初始化直接使用了T5-v1.1的参数，也就是说直接基于其进行了二次预训练。
在这里插入图片描述

7.实验

全监督

在这里插入图片描述

小样本

在这里插入图片描述

附录

报道：https://mp.weixin.qq.com/s/8Cr4EvN3PscThSTfCseJDQ
论文：https://arxiv.org/pdf/2203.12277.pdf
代码：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

脑图

在这里插入图片描述

J_Xiong0117

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
通用信息抽取UIE论文笔记

一.研究背景与动机信息抽取目的信息抽取旨在从非结构化的自然语言文本中抽取出结构化的信息。主要任务命名实体识别关系抽取事件抽取观点抽取主要设置全监督低资源少样本零样本作用场景医疗金融法律美业农业教育信息抽取现有的问题任务难度大，落地成本居高不下。1）不同的信息抽取任务拥有差异较大的输出结构，难以统一化建模：实体识别任务一般是采用span及其实体类别表示关系抽取任务一般采用三元组（triplet）结构表示事件抽取任务一般采用记录（record）
复制链接

扫一扫