论文笔记02:深度学习实体关系抽取研究综述

公众号:数据挖掘与机器学习笔记

摘要、前言

  • 实体关系抽取:通过对文本信息建模,从文本中自动抽取实体对间的语义关系,提取出有效的语义关系

  • 应用领域:信息抽取、自然语言理解、信息检索、机器翻译、语义网标注、知识图谱等

  • 抽取方法:传统方法:有监督、半监督、弱监督和无监督;深度学习方法:有监督和远程监督

  • 相关领域国际会议:ACL、EMNLP、ICLR、AAA、KDD、NAACL、ECML-PKDD等

2.深度学习实体关系抽取的问题定义和解决框架

2.1 问题定义

实体关系抽取是指在实体识别的基础上,从非结构化文本中抽取预先定义的实体关系。实体对的关系可被形式化描述为关系三元组<e1,r,e2>,其中,e1和e2是实体,r属于目标关系集R{r1,r2,…,ri}。关系抽取是从自然语言中抽取出关系三元组<e1,r,e2>,从而提取文本信息。

2.2 深度学习实体关系抽取方法

有监督包括流水线和联合学习:

  • 流水线实体关系抽取方法是指在实体识别完成的基础上直接进行实体之间关系的抽取;
  • 联合学习主要是基于神经网络端到端模型,同时完成实体的识别和实体间关系的抽取。
  • 远程监督方法:缺少人工标注数据集,比有监督多一步远程对齐知识库给无标签数据打标的过程。而构建关系抽取模型模型的部分,与有监督领域的流水线方法差别不大。

2.3 实体关系抽取问题解决框架

  • 获取有标签数据:有监督方法通过人工标记获取有标签数据集,远程监督方法通过自动对齐远程知识库获取有标签数据集
  • 构建词向量表示:将有标签句子分词,将每个词语编码成计算机可以接受的词向量,并求出每个词语与句子中实体对的相对位置,作为这个词语的位置向量,将词向量与位置向量组合作为这个词语的最终向量表示。
  • 进行特征提取:将句子中每一个词语的向量表示输入神经网络中,利用神经网络模型提取句子特征,进而训练一个特征提取器;
  • 关系分类:测试时根据预先定义好的关系种类,将特征提取出的向量放入非线性层进行分类,提取最终的实体对关系;
  • 评估分类性能:最后,对关系分类结果进行评估;

在这里插入图片描述

3.基于深度学习的有监督实体关系抽取方法

3.1 实体关系抽取框架演化流程

有监督深度学习方法能够解决经典方法中存在的人工特征选择、特征提取误差传播两大主要问题。研究主要集中在融合多种自然语言特征来提高识别精确度。
在这里插入图片描述

3.2 流水线方法

基本流程:针对已经标注好目标实体对的句子进行关系抽取,最后把存在实体关系的三元组作为预测结果输出。

  • 基于RNN模型的实体关系抽取方法
  • 基于CNN模型的实体关系抽取方法
  • 基于LSTM的实体关系抽取方法

流水线方法存在几个缺点:

  • 错误传播:实体识别模块的错误会影响到接下来的关系分类性能
  • 忽视了两个子任务之间存在的关系:丢失信息,影响抽取效果;
  • 产生冗余信息:由于对识别出来的实体进行两两匹配,然后再进行关系分类,那些没有关系的实体对就会带来多余冗余信息,提升错误率。

3.3 联合学习方法

联合学习方法能够利用实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。
联合学习方法通过实体识别和关系分类联合模型,直接得到存在关系的实体三元组。根据建模的对象不同,联合学习方法又可以分为参数共享方法和序列标注方法:参数共享方法分别对实体和关系进行建模,而序列标注方法则是直接对实体-关系三元组进行建模。

  • (1)基于参数共享的实体关系抽取方法

在此方法中,实体识别子任务与关系抽取子任务通过共享联合模型的编码层来进行联合学习,通过共享层编码,在训练时,两个子任务都会通过后向传播算法更新编码层的共享参数,以此来实现两个子任务之间的相互依赖,最终找到全局任务的最佳参数,实现性能更佳的实体关系抽取系统。在联合学习模型中,输入的句子在通过共享的编码层后,在解码层会首先进行实体关系识别子任务,再利用实体识别的结果,并对存在关系的实体对进行关系分类,最终输出实体-关系三元组。

  • (2)基于序列标注的实体关系抽取方法

基于序列标注的实体关系抽取方法改善了流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题。但因其在训练时还是需要先进行命名实体识别子任务,再根据实体预测信息对实体进行两两匹配,最后进行关系分类子任务,因其在模型实现过程中分开完成了命名实体识别和关系分类两个子任务,仍然会产生没有关系的实体这种冗余信息。

Zheng 等人[55]在 2017 年提出了基于新的标注策略的实体关系抽取方法,把原来涉及到命名实体识别和关
系分类两个子任务的联合学习模型完全变成了一个序列标注问题.在该方法中,共包含 3 种标注信息:

  • (1) 实体中词的位置信息{B,I,E,S,O},分别表示{实体开始,实体内部,实体结束,单个实体,无关词};
  • (2) 实体关系类型信息,需根据实际需要自定义关系类型并编码,如{CF,CP,…};
  • (3) 实体角色信息{1,2},分别表示{实体 1,实体 2}.

该方法能使用序列标注的方法同时识别出实体和关系,避免了复杂的特征工程,通过一个端到端的神经网络模型直接得到实体-关系三元组,解决了基于参数共享的实体关系抽取方法可能会带来的实体冗余的问题.新序列标注方法的模型图如图6所示.在该端到端的神经网络模型中,对输入的句子,首先,编码层使用Bi-LSTM来进行编码;之后,解码层再使用 LSTM进行解码;最终,输出模型标注好的实体-关系三元组.另外,Zheng 等人[55]在这篇论文中还对该端到端模型增加了偏置损失函数,该函数增强了相关实体对之间的联系,削弱了无效实体标签的影响力,提高了关系分类的准确率;并基于这种新的标注方法,该论文中还学习用不同的端到端模型来解决关系抽取问题.

在这里插入图片描述

  • 联合学习方法的缺点:

基于参数共享的方法可以改善流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题;基于序列标注的方法可以进一步解决冗余实体的问题。但这两种方法对于现今有监督领域存在的重叠实体关系识别问题,并未能给出相关的解决方案。

3.4 基于深度学习的有监督关系抽取方法和经典方法的对比

基于有监督学习的经典方法严重依赖于词性标注、句法解析等自然语言处理标注工具中提供的分类特征,而自然语言处理标注工具中往往存在大量错误,这些错误会在关系抽取系统中不断传播放大,最终影响关系抽取的效果.而基于深度学习的有监督方法可以在神经网络模型中自动学习特征,将低层特征进行组合,形成更加抽象的高层特征,用来寻找数据的分布式特征表示,能够避免人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题.

3.5 有监督实体关系抽取核心公式

在这里插入图片描述

4. 基于深度学习的远程监督实体关系抽取方法

4.1 远程监督实体关系抽取框架演化流程

Mintz[14]于 2009 年首次提出将远程监督应用到关系抽取任务中,其通过数据自动对齐远程知识库来解决开放域中大量无标签数据自动标注的问题.远程监督标注数据时主要有两个问题:噪声和特征提取误差传播.
噪声问题是由于远程监督的强假设条件,导致大量数据的关系被错误标记,使得训练数据存在大量噪声;而特征提取中的误差传播问题是由于传统的特征提取主要是利用 NLP 工具进行数据集的特征提取,因此会引入大量
的传播误差…针对错误标签问题,Surdeanu[8]于 2010 年提出的多示例多标签学习方法、Lin[10]于 2016 年提出的Attention 机制,都有效减弱了远程监督错误标签对抽取性能的影响.而自从深度学习的崛起和其在有监督领域取得良好的关系抽取效果后,用深度学习提取特征的思路来替代特征工程是一个非常自然的想法:用词向量、位置向量来表示句子中的实体和其他词语;用深度模型对句子建模,构建句子向量;最后进行关系分类.深度学习模型及其特点有:CNN 的扩展模型 PCNN+MIL[37]、PCNN+ATT[10](Attention 机制作为多示例机制的一种泛化)弱化错误标签问题;LSTM[57]获取实体对方向性信息;COTYPE[39]联合抽取实体和关系信息;深度残差网络[40]防止错误标签噪声的逐层累积.基于远程监督实体关系抽取框架的演化流程如图 7 所示.
在这里插入图片描述

4.2 基于深度学习的远程监督实体关系抽取方法介绍

  • 基于PCNN及其扩展模型的实体关系抽取
  • 基于PCNN和多实例(MIL)的实体关系抽取
  • 基于PCNN和注意力机制的实体关系抽取
  • 基于PCNN、注意力机制和实体表示信息的实体关系抽取
  • 基于LSTM的实体关系抽取
  • 基于COTYPE联合抽取模型的实体关系抽取方法
  • 基于深度残差网络的实体关系抽取

4.3 基于深度学习的远程监督关系抽取方法与经典方法对比

远程监督的提出,是因为在开放域中存在大量无规则非结构化数据,人工标注虽能使标注的准确率较高,但是时间和人力消耗巨大,在面对大量数据集时显得不切实际.因此,远程监督实现一种数据集自动对齐远程知识库进行关系提取的方法,可进行自动标注数据.但由于其强假设条件造成大量错误标签问题,之后,经典的远程监督的改进都是在改进处理错误标签的算法.
深度学习的提出,是因数据特征构造过程依赖于 NER 等 NLP 工具,中间过程出错会造成错误传播问题.且现今基于深度学习的远程监督实体关系抽取框架已包含经典方法中对错误标签的探讨解决,因此可以认为现今的远程监督关系抽取框架是基于传统方法的扩展优化.

4.4 基于深度学习的远程监督关系抽取方法与有监督方法的对比

在这里插入图片描述

4.5 远程监督实体关系抽取方法核心公式

基于深度学习的远程监督实体关系抽取研究点主要集中在远程监督的噪声问题和特征提取的误差
传播两方面
在这里插入图片描述

5.基于深度学习的实体关系抽取新模型与新思路

5.1 融合深度增强学习的实体关系抽取

5.2 融合生成对抗网络的实体关系抽取

6.基于深度学习的实体关系抽取数据集及评测方法

6.1 数据集介绍

用作深度学习关系抽取实验评估的标准数据集主要有 SemEval-2010 Task 8 公开数据集、ACE2004实验语料、NYT-FB 数据集等

6.基于深度学习的实体关系抽取数据集及评测方法

6.1 数据集介绍

用作深度学习关系抽取实验评估的标准数据集主要有 SemEval-2010 Task 8 公开数据集、ACE2004实验语料、NYT-FB 数据集等

  • (1)有监督领域

有监督领域的实体关系抽取主要采用 MUC 关系抽取任务数据集、ACE04、ACE05、SemEval-2010 Task 8公开数据集,部分论文采用 MPQA 2.0 语料库和 BioNLP-ST 2016 的 BB 任务数据集.有监督方面评测标准主要以 F1 值来统计.

  • MUC 关系抽取任务数据集:MUC-7 包含五大评测任务:命名实体识别、指代消解、模版元素填充、模版关系确定和场景模版填充.其中,关系抽取首次作为一个独立的评测任务被提出来.MUC-7 的数据语料主要是取自新闻语料,主要是飞机失事事件报道和航天器发射事件报道.MUC 会议停开以后, ACE会议也将关系抽取任务作为会议的一个子任务;

  • ACE 关系抽取任务数据集:ACE 会议从 2002 年~2007 年一直将关系抽取任务作为一个子任务,其中获得广泛认可的ACE04/ACE05.其中,ACE04语料库来源于语言数据联盟(linguistic data consortium,简称 LDC),分成广播新闻(BNEWS)和新闻专线(NWIRE)两个部分,总共包含 451 个文档和 5 702 个关系实例.ACE04 提供了丰富的标注信息,从而为信息抽取中的实体识别、指代消解和关系抽取凳子任务提供基准(benchmark)的训练和测试语料库.而 ACE05 作为 ACE04 的扩充,对 ACE04 数据集进行了适当的修改与完善;

  • SemEval-2010 Task 8 数据集:SemEval 是由 Senseval 演变而来的语义评测.Senseval 是由ACL-SIGLEX组织的国际权威的词义消歧评测,但由于 Senseval 中除词义消歧外有关语义分析的任务越来越多,之后,Senseval 委员会决定把评测名称改为国际语义评测(SemEval).SemEval-2010 Task 8 数据集是 2010年 SemEval 语义评测的子任务,构建于 2009年,此任务用于名词间多种语义关系的分类.数据集根据预设定的 9 种互不相容关系从各大数据源收集而来,数据源包括WordNet,Wikipedia data,Google n-grams等.数据集共包含 10 717 条数据,其中,训练集有 8 000 条,测试集有 2 717 条.数据集中 9 种关系,分别为:Cause-Effect(因果关系),Instrument-Agency(操作、使用关系),Product-Producer(产品-生产者关系 ),Content-Container( 空间包含关系 ),Entity-Origin( 起源关系 ),Entity-Destination( 导向关系 ),Component-Whole(组件-整体关系),Member-Collection(成员-集合关系),Message-Topic(主题关系).每条数据是一个包含实体对的句子,类别标签为实体对在该句中表现出的关系;

  • MPQA 2.0 语料库:包含来自各种新闻源的新闻文章和社论,数据集中共有 482 个文档,包含 9 471 个带有短语级别注释的句子.数据集中包含观点实体的黄金标准注释,如观点表达、观点目标和观点持有者;还包含观点关系的注释,如观点持有者和观点表达之间的 IS-FROM 关系、观点目标和观点表达之间的 IS-ABOUT 关系;

  • BioNLP-ST 2016 的 BB 任务:此任务是针对细菌/位置实体抽取和两者间 Lives_In 关系抽取而设立的一个标准竞赛,数据集由来自 PubMed 的 161 个科学论文摘要组成,数据集中包含 3 种类型的实体:细菌、栖息地和地理位置;包含一种关系:Lives_In,指由细菌-栖息地构成的 Lives_In 关系或由细菌-地理位置构成的 Lives_In 关系.

  • (2)远程监督领域
    远程监督领域的实体关系抽取主要采用NYT-FB数据集.这个数据集是由Freebase知识库对其纽约时报的文本获得的数据集.训练数据为知识库对其 2005 年、2006 年文本获得的,测试库数据为知识库对其 2007 年文本获得的.NYT-FB 数据集中共有 53 种关系,共计 695 059 条数据(其中训练集包含 522 611 条训练语句,训练数据中有近 80%的句子的标签为 NA,测试集包含 172 448 条测试语句),通过结合 FreeBase 对 NYT 语料做实体链接、关系对齐等操作进行标注,最终得到一个被广泛使用的关系抽取数据集.

6.2 评测方法介绍

  • (一)精准率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZXwu3Y9p-1598533360890)(https://imgkr2.cn-bj.ufileos.com/b563758a-2bd1-46b1-aec5-d7ea1e6b020c.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=y51k%252F6gUSrMFBkkqwWugf65kPxU%253D&Expires=1598535811)]

  • (二)召回率
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zzoxTsgh-1598533360891)(https://imgkr2.cn-bj.ufileos.com/be89f282-cd9b-4776-9a3c-e84735beaf15.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=sSap6I6IRyhXGXQIaiJV6J7f6JI%253D&Expires=1598535826)]

  • (三)F值

在这里插入图片描述

6.3 深度学习实体关系抽取典型论文的数据集与评测标准

在这里插入图片描述

表 5 中,序号 1~序号 15 是有监督领域实体关系抽取的典型模型与其相关信息介绍,序号 16~序号 25 是远
程监督领域实体关系抽取的典型模型与其相关信息介绍.其中,1~10 是有监督领域中流水线类别的模型,序号
11~序号 15 是有监督领域的联合学习类别的模型.

7.未来研究方

  • (1)重叠实体关系识别
  • (2)跨句子级别关系抽取
  • (3)关系类型OOV问题
  • (4)解决远程监督的错误标签问题
  • (5)远程监督领域误差传播问题

参考文章:
【1】深度学习实体关系抽取研究综述

在这里插入图片描述

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值