开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)
一.第四代开放信息抽取系统背景
第四代开放信息抽取系统的诞生和发展离不开时代的浪潮,首先是深度学习迅猛发展,word-embedding、seq2seq-attention、attention、bert等技术层出不穷;然后就是前人开源出的各种OIE系统,也给数据标注等带来便利。
基于深度学习的开放信息抽取系统与之前的信息抽取方法有极大的不同,1)首先是使用开源的开放信息抽取系统抽取训练集, 2)然后是将深度模型直接用于开放三元组抽取。
二.第四代开放信息抽取系统历史
第三代开放信息抽取系统的思路是引入一个句子重组阶段,其目标是转换复杂的句子为简单句。
- 2018
- RnnOIE(SRL: BiLSTM+Softmax): Supervised Open Information Extraction
- CopyAttention(Encode-Decode<3-layer-bilstm>): Neural Open Information Extraction
- 2019
- SenseOIE: Supervising Unsupervised Open Information Extraction Models
- 2020
- SpanOIE(BiLSTM_span): Span Model for Open Information Extraction on Accurate Corpus
- Multi2OIE(BERT+Classify+Attention): Multilingual Open Information Extraction based on Multi-Head Attention with BERT
- IMoJIE(BERT+CopyAttention): Iterative Memory-Based Joint Open Information Extraction
- OpenIE6(BERT+IGL(Attention+Label-encode))): Iterative Grid Labeling and Coordination Analysis for Open Information Extraction
三. 第四代开放信息抽取系统内容
3.1 概述
第四代开放信息抽取系统的思路主要是:
- a.未标注语料使用OPENIE4系统等构建高召回的训练集(自助法);
- b.使用a中获取到的数据集, 抽取式或生成式的端到端深度学习
3.2 RnnOIE系统(抽取式, 序列标注, 先关系后实体)
- 主要思想: 使用语义角色标注数据、OpenIE4数据等, 将三元组抽取任务转化为端到端的序列标注任务。
- 详情:
-
BiLSTM + Softmax, BIO标注, 类是SRL任务, 一次支持单个关系多对实体, embed使用的是feat(wi, p) = emb(wi) ⊕ emb(pos(wi)) ⊕ emb(wp) ⊕ emb(pos(wp)), p is the word index of the predicate’s syntactic head, we extract feature vector feat for every word.
- SRL通常处理单词谓词,但openie使用多词谓词,这些谓词通常包含情态动词和嵌入式谓词;
- OPENIE三元组实体的顺序会偏离原句的顺序;
- 在推理时,首先确定句子中的所有动词和名词性谓语都作为候选谓语。
-
训练数据来源: QA-SRL, QAMR, OpenIE4
-
3.3 SenseOIE系统(抽取式, 序列标注, 多个开源系统输出融合+多特征)
- 主要思想: 使用多个历史开源OIE系统输出的联合结果、少量标记数据作为训练集,加上一组不同的词汇和语法信息,如单词嵌入、词性嵌入、句法角色嵌入和依存句法分析结果作为其输入特征,进行三元组抽取。
- 详情:
-
数据标注: E1, E2, R or O (EOR tags);
-
标签投票是一种基本机制, 从三个不同的OIE获得多数票作为输入;
-
网络架构只是一个简单的Bi-LSTM, 不过值得注意的是特征使用了 word-embed, pos-embed, SRL-embed, DP-embed, 3-OIE-system-output;
-
训练数据来源:
- 开源开放信息抽取系统: Stanford Open IE, OpenIE 5 and UKG can complement each other when combined together.
- 数据集: AW-OIE-C、Web、NYT、PENN
-
3.4 CopyAttention(Seq2seqOIE)系统(生成式, 按照实体-关系-实体顺序生成)
- 主要思想: 使用语义角色标注数据、OpenIE4数据等, 将三元组抽取任务转化为端到端的序列标注任务。
- 详情:
- 三层LSTM作为encode层, 三层的LSTM作为decode层, 使用Attention和Copying Mechanism;
- 只支持二元抽取, 不支持多元抽取和嵌套抽取. In this work, we only consider the binary extractions from sentences, leaving n-ary extractions and nested extractions for future research.
- 训练数据来源: OPENIE4, Wikipedia dump 201801013 and extracted all the sentences that are 40 words or less
3.5 SpanOIE系统(抽取式, 指针抽取n-ary三元组, 标注测试集)
- 主要思想: 精确重新注释的基准测试集, 引入指针模型(introduce a span model for n-ary Open IE)。
- 详情:
- 分为两个模块, 第一步是关系识别(主要是谓语), 第二步输入句子和关系预测实体;
- 指针候选范围(Spans Candidates Selection):
- 最大长度限制: 训练限制(关系-10-words, 实体-5-words), 推理不限制;
- 无重叠约束: 关系与实体不重叠;
- 语法约束: 跨度只保留句法span的paent-word, 或者当前词语的paent-word;
- 输入特征: xi = emb(wi) ⊕ emb(pos(wi)) ⊕ emb(p(wi)) ⊕ emb(dp(wi))
- 片段特征: fspan(si:j) = hi ⊕ hj ⊕ hi + hj ⊕ hi − hj
- 训练数据来源:
-
- 语料库是为n元抽取而不是二元抽取而构建的提取, 2) 利用OpenIE4低置信度分数的输出。
- QA-SRL(改进 + 自己标注)
-
3.6 Multi2OIE系统(抽取式, 多语言版本)
- 主要思想: 多国语言版, 支持英语/西班牙语/葡萄牙语, BERT + Multihead, 先预测关系再抽取实体, 每个关系最多支持3对实体;
- 实体提取, 一个句子包含一个或多个谓语。argument提取方法只针对一个谓词, 多个谓词则重复这一过程;
- 数据来源: OIE2016-dev(OPENIE4), CaRB-dev;
3.7 IMOJIE系统(生成式, subject, 实体-关系-实体)
-
主要思想: 1) BERT+CopyAttention, 2) 拼接上一轮结果预测下一个三元组, 3) 融合多个历史版本OIE系统的输出
-
详情:
- 改进CopyAttention的缺点: 不适配多个关系和复杂sentence输入的情况; 多个抽取不连续, 存在冗余抽取的情况;
- BERT + LSTM(copy/attention), 多个三元组的情况, 将预测出的三元组加入encode再预测;
-
多系统自助法(Multiple Bootstrapping Systems)
- 为了充分利用OpenIE-4的高召回和ClausIE的高精度, 去除冗余项(scoring-filtering);
- 为了充分利用OpenIE-4的高召回和ClausIE的高精度, 去除冗余项(scoring-filtering);
3.8 OPENIE6系统(抽取式, 二维网格标注<IGL网络> + )
-
主要思想: 转化为二维网格标记任务(IGL) + 迭代标记, 用以提高指标、加速推理
-
详情:
-
IGL网络架构(IGL architecture), 约束提高召回(constraints), 连词分析器处理连词句子(coordination analyzer), 对于给定的句子,基于IGL的OpenIE提取器产生一个不完整的抽取, 约束条件通过覆盖剩下的单词来提高召回率, 协调分析器处理层次连接;
-
Iterative Grid Labeling, IGL架构label-embedding迭代
-
网格约束, For the given sentence, IGL based OpenIE extractor produces an incomplete extraction. Constraints improve the recall by covering the remaining words. Coordination Analyzer handles hierarchical conjunctions.
-
IGLOIE具有良好的精度,但遗漏了重要的信息提取, 定义中心动词(head-verb)(除轻动词以外的所有动词, do, be, is, has, etc.)
- 例子: “Obama gained popularity after Oprah endorsed him for the presidency”, 中心动词(head-verb, gained, endorsed.), 为了覆盖所有有效的抽取, 定义:
- pos覆盖率(POSC):名词(N)、动词(V)、形容词(JJ)和副词(RB)等至少包含一个抽取。必须包含的例子:<Obama, gained, popularity>, <Oprah, endorsed, presidency>
- head verb覆盖率(HVC):每个中心动词应该出现在某些(但不要太多)三元组。 以下不是必须的: <Obama, gained, presidency>
- head verb排他性(HVE):关系跨度一次提取最多只能包含一个中心动词。以下不是一个好的关系: gained popularity after Oprah endorsed
- 三元组计数(EC):在关系跨度中,有中心动词的三元组总数必须不少于中心动词在句子里的数目。
-
连词边界检测, Coordination Boundary Detection
-
-
二维网格标注问题(M,N), 其中M是预定义的最大提取次数,N是句子长度;
代码
- RnnOIE: https://github.com/gabrielStanovsky/supervised-oie
- Multi2OIE: https://github.com/youngbin-ro/Multi2OIE
- IMoJIE: https://github.com/dair-iitd/imojie
- OpenIE6: https://github.com/dair-iitd/openie6
论文与文章
- RnnOIE: https://www.aclweb.org/anthology/N18-1081.pdf
- SpanOIE: https://arxiv.org/pdf/1901.10879.pdf
- CopyAttentionOIE: https://arxiv.org/pdf/1805.04270.pdf
- SenseOIE: https://aclanthology.org/N18-1081/
- Multi2OIE: https://arxiv.org/abs/2009.08128
- IMoJIE: https://www.aclweb.org/anthology/2020.acl-main.521/
- OpenIE6: https://arxiv.org/abs/2010.03147