【转】自然语言系列学习之表示学习与知识获取（五）融合文本和知识，利用cnn方法进行关系抽取

最新推荐文章于 2022-09-18 17:28:15 发布

vincent_hahaha

最新推荐文章于 2022-09-18 17:28:15 发布

阅读量509

点赞数 1

分类专栏： trans系列

本文链接：https://blog.csdn.net/vincent_duan/article/details/117369567

版权

trans系列专栏收录该内容

10 篇文章

订阅专栏

本文重点放在怎么利用知识表示学习，辅助我们进行关系抽取，首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取。

前文提到利用知识图谱学习了知识表示，就可以预测任意两个实体之间的关系，它是通过t-h（r～t-h）来预测relation。关于两个实体之间的关系预测，常用的做法是基于文本形式，它的基本思想是任意给出两个实体到大规模的文本里面去寻找同时出现这两个实体的句子，那我们就认为同时出现两个实体的句子，能够反映这两个实体的特征。那么我们从这些句子里抽取特征，然后就可以建立起这种关系的分类模型，它是基于文本的信息进行关系预测的思想。

在文本上进行关系抽取方面最新或者最好的方法，是2014年由中科院自动化所赵军老师和刘康老师团队所研制的一系列基于深度学习的方法。
在这里插入图片描述
他们在2014年COLING（计算语言学国际会议：International Conference on Computational Linguistics,COLING）上，并且获得最佳论文奖，论文中基本思想是给定两个实体同时出现的句子，利用Convolutional neural network卷积神经网络自动的学习句子的低维向量表示，论文中认为这个句子的低维向量表示能够很好的反应这个句子里面所表示的两个实体之间的关系，通过把低维向量表示当成这个句子的一个特征，那我们就可以构建句子基于文本关系的分类模型，这是利用cnn进行文本关系抽取的技术细节。

前面提到利用分布式表示学习，我们可以有效的融合不同领域不同对象之间的语义信息，其实也是希望通过这种分布式表示去融合文本和知识来进行关系的抽取。

在这里插入图片描述
例如上图中的三元组，里面的每一个实体，头实体和尾实体，他们的实体向量既可以用来knowledge graph（知识图谱）的学习，也可以在文本端参与文本里的word vector 的学习，同样在三元组里关系向量的学习，一方面可以参与knowledge graph（知识图谱）的transe的学习，同时它还可以参与到基于文本cnn（如上图，神经网络）的表示进行预测，这样就可以利用分布式表示，然后建立起文本和知识的信息联合的学习，从而得到更好的关于实体关系的表示来进行实体关系之间的抽取。

在这里插入图片描述
我们在关系抽取上进行评测方法就是利用precision-recall（Precision，准确率/查准率。Recall，召回率/查全率。这两个指标分别以两个角度衡量分类系统的准确率）曲线，它的基本思想是有非常多的候选实体的对，然后利用算法预测它们之间的关系，并利用算法给每一个实体对在每一个可能的关系上打分，这样每个实体对跟不同关系构建的三元组（triple）就可以进行排序。所有的triple按照顺序评价，排在最前面的triple被预测实体之间关系的准确率会更高一点。
在这里插入图片描述
所以每一条方法所对应的曲线都是从rank list里第一位开始往下看，预测准确情况对标准答案的情况形成一条曲线，这条曲线一般随着rank list往下看，它的准确率会越来越低，那么同时recall也会变得越来越高。上图中下方粉色线是利用cnn方法通过文本信息进行关系抽取的效果。