【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取

该文介绍了如何利用远程监督和多实例学习改进关系抽取。远程监督通过自动标注知识库数据可能存在噪声,而多实例学习通过句级注意力机制解决了这一问题。清华大学研究团队提出的PCNN模型结合注意力机制,以及Fast-TransE在大规模知识图谱表示学习上的加速技术,都显示了显著的性能提升。此外,NRE框架整合了CNN、PCNN及注意力机制,提高了关系抽取的准确性。
摘要由CSDN通过智能技术生成

下面介绍下如何利用远程监督多实例进行关系抽取。前文有提到到当利用文本进行关系抽取,基本思想是利用知识图谱中,如(下图)任意两个实体同时在句子中出现:
在这里插入图片描述
我们把句子当成是两个实体关系训练得样例,这样就可以训练出一个关于关系分类的模型。这被称为Distant Supervision远程监督,之所以叫做远程监督是因为标注数据通过知识库自动标注出来的,并没有经过人工干预。这种自动方式可以非常快的能构建出非常大的关系分类的训练数据,但它的问题是同时出现两个实体的这些句子,并不见得都能够很好的反映两个实体在知识库中是什么关系。

比如bill gates和microsoft在知识库中是founder的关系(上图例),但是 第1个句子和第3个句子的确是反映了founder的关系,但是第2个句子bill gates announced to retire from microsoft,他就没有很好的反映founder的关系。

在这里插入图片描述

有个解决思路,就是说像融合文本中描述信息一样,给不同的句子不同的权重,也就是每一个句子也去学CNN,得到他的表示,但是这个表示并不是直接进行关系的预测,或者是说没有构建这种关系向量,而是先根据关系的向量,给句子的表示不同的权重,权重计算方式(上图右侧)是计算关系表示跟文本表示之间的映射关系。

那么通过给不同句子不同的权重称之为sentence-level attention,这样就可以有效解决远程监督中自动标注多个句子的噪音问题。

在这里插入图片描述
如果利用cnn,有效的利用sentence-level attention,加att的方法的预测效果其实远远好于没有考虑任何的多实例问题的cnn方法。
在这里插入图片描述
在2015年中科院自动化所赵军老师,刘看老师组发表论文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》(分段卷积神经网络用于关系提取的远程监控)

论文中做了一个cnn改进模型,就是根据这两个实体,把句子划分成三个不同部分,每一个部分单独训练cnn,论文中叫这种cnn为piecewise conncolutional neural networks(pcnn)。清华大学团队在pcnn模型上尝试sentence-level attention的效果,可以看到(上图中)黑色的线远高于pcnn的效果,那么这其实也说明了考虑sentence-level attention的重要意义。
在这里插入图片描述
清华大学团队也比较了一些传统方法(非deep learning的方法),直接从句子中抽取离散符号表示的特征,你可以看到基于CNN,基于PCNN的 attention效果要远好于feature base的方法,其实也说明现在一定要用deep learning的手段才能够取得关于文本关系抽取最好的效果。

在这里插入图片描述
我们也可以看到通过一些(attention)例子,如relation employer of ,谁是谁的雇主, 我们利用sentence-level attention可以找到更好反映实体之间雇主关系的一些句子,那么给予比较低attention的一些句子,在一定程度上不能够更好的反映employer of的关系。类似的place of birth出生地点,在上表中最下面一行是attention很高的句子(Ernst haefliger was born in davos on july 6,1919,and studied at the wettinger seminary…) ,上表中倒数第二行是attention很低的句子(Ernst haefliger ,a swiss tenor who…… roles, died on Saturday in davos,switzerland ,where he maintained a second home).通过上面的例子中能够看出这种sentence-level attention有比较好的效果。

清华大学团队开源的研究成果

KB2E:TransE TransH TransR和PTransE:

开源代码: http://www.github.com/thunlp/KB2E

它是一个工具包,里面包含了几乎所有模型有TransE,
TransH,TransR和PTransE

Fast-TransE:

开源代码 :https://github.com/thunlp/Fast-TransX

清华团队为了能够更好的去在大规模大规模的知识图谱上进行表示学
习。开发了一个加速的版本Fast-TransE,目前能够实现比kb2e里
面的 TransE 训练速度提升40倍,就是说原来一个数据需要训练两
三个小时的时间,现在只需要4分钟就可以完成

Nre:CNN, PCNN, x+ATT:

开源代码: http://github.com/thunlp/NRE

nre是基于文本远程监督关系抽取的方法,它包括CNN, PCNN, 
x+ATT等方法。

清华团队发表的相关论文:

《Neural Relation Extraction with Selective Attention over Instances》
该论文针对远程监督关系抽取方法中的错误标注问题,提出了在句子层级采用选择性关注机制的模型。与现有神经网络模型相比,该模型不仅可以综合利用所有文本数据,而且可以降低错误标注数据的影响,抽取准确率取得显著提高。

《Relation Classification via Multi-Level Attention CNNs》
该论文针对关系分类问题提出了多关注机制的卷积神经网络,显著提升了关系分类效果。

《Knowledge Representation Learning with Entities, Attributes and Relations》
论文是面向知识图谱的表示学习任务,提出利用实体、属性、关系三个元素来进行表示学习。它提出对属性和关系加以区分,并在表示学习的过程中区别对待,本文首先提出属性与关系的区别,本文叙述:属性的值一般是抽象的概念,如性别与职业等;而且通过统计发现,属性往往是多对一的,而且对于特定的属性,其取值大多来源于一个小集合,如性别。对关系与属性采用不同的约束方式进行独立表示学习,同时提出属性之间的更强的约束关系。论文想法新颖,很值得借鉴。

《Representation learning of knowledge graphs with hierarchical types》
论文是面向知识图谱的表示学习任务,提出融入实体类型信息辅助知识图谱的表示学习。目前的大多数方法专注于利用知识图谱中三元组结构的表示学习,而忽略了融入实体类型的信息。对于实体而言,对于不同的类型含义应该具有不同的表示。论文中中从Freebase中获取实体的类型信息,并将其层次化表示,并设计了两种编码方式,对于不同的关系通过参数调整获得对应的实体表示。

《RepresentationLearning of Knowledge Graphs with Entity Descriptions.》
论文提出融合知识图谱三元组和实体描述文本的知识表示学习模型,实验证明,该模型能根据描述为新实体自动构建向量表示,显著提升实体预测、关系预测和实体分类的性能。

《Modeling Relation Paths for Representation Learning of Knowledge Bases》
论文提出了一种基于路径的知识图谱表示模型,将实体之间的路径表示为一种平移关系。论文其主要贡献为提出了用于计算不同路径的权重的基于路径限制的资源分配算法和三种不同的路径表示模型,并在知识图谱完善和文本关系抽取中验证了模型的有效性。

《Learning entity and relation embeddings for knowledge graph completion》
针对知识图谱的表示学习模型TransR,将实体映射到不同关系空间中构建优化目标,并通过聚类对关系进行细分,能够有效改善1-N、N-1类型关系的表示,在链接预测和文本关系抽取等任务均取得了显著的提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值