trans系列
文章平均质量分 83
vincent_hahaha
haha ha
展开
-
TransH
为了解决TransE模型在处理一对多 、 多对一 、多对多复杂关系时的局限性,TransH模型提出让一个实体在不同的关系下拥有不同的表示。如下公式所示,对于关系rrr,TransH模型同时使用平移向量rrr和超平面的法向量wrw_rwr来表示它。对于一个三元组(h,r,t)(h, r, t)(h,r,t) , TransH首先将头实体向量hhh和尾实体向量rrr,沿法线wrw_rwr,映射关系rrr对应的超平面上,用h⊥h_\perph⊥和t⊥t_\perpt⊥表示如下:h⊥=h−wr⊤hwrt⊥原创 2021-05-31 15:56:21 · 883 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取
下面介绍下如何利用远程监督多实例进行关系抽取。前文有提到到当利用文本进行关系抽取,基本思想是利用知识图谱中,如(下图)任意两个实体同时在句子中出现:我们把句子当成是两个实体关系训练得样例,这样就可以训练出一个关于关系分类的模型。这被称为Distant Supervision远程监督,之所以叫做远程监督是因为标注数据通过知识库自动标注出来的,并没有经过人工干预。这种自动方式可以非常快的能构建出非常大的关系分类的训练数据,但它的问题是同时出现两个实体的这些句子,并不见得都能够很好的反映两个实体在知识库中是什原创 2021-05-31 11:08:11 · 436 阅读 · 0 评论 -
自然语言系列学习之表示学习与知识获取(七)利用关系路径进行关系抽取
接下来介绍另外一个方向是如何更好的利用知识图库里关系路径的信息进行关系抽取。有一个非常直观的例子介绍关系路径的好处,如电影阿甘正传(上图),我们如果想要知道阿甘正传的语言是什么,可以通它的电影导演是某一个人,导演本身的母语是什么? 它可以帮助我们猜测阿甘正传使用什么语言来拍摄的,这是一个非常直观的例子,它告诉我们可以利用知识图谱里面关系路径预测任意两个实体之间的关系,这也说明这些关系路径蕴含了非常丰富的语义信息,可以帮助我们进行这种关系的抽取。在利用关系路径进行关系抽取方面,很多年前就有一位著名的华人原创 2021-05-28 19:03:04 · 437 阅读 · 0 评论 -
自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示
利用文本信息还有还有另外一个非常重要的来源,就是来自于实体的描述,在知识库里对一些实体构建关于它的一个简单的介绍(short description)。这些简短的介绍,往往能够很好的反映实体的表示,它的语义信息。那我们就想有没有可能充分利用这些比较简短的描述,去更好的进行知识的表示学习。2016年清华大学发表了一篇论文《Representation Learning of Knowledge Graphs with Entity Descriptions》,论文中利用cnn,也就是卷积神经网络(上图),原创 2021-05-28 18:21:15 · 315 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取
本文重点放在怎么利用知识表示学习,辅助我们进行关系抽取,首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取。前文提到利用知识图谱学习了知识表示,就可以预测任意两个实体之间的关系,它是通过t-h(r~t-h)来预测relation。关于两个实体之间的关系预测,常用的做法是基于文本形式,它的基本思想是任意给出两个实体到大规模的文本里面去寻找同时出现这两个实体的句子,那我们就认为同时出现两个实体的句子,能够反映这两个实体的特征。那么我们从这些句子里抽取特征,然后就可以建立起这种关系的分类模型,它是基于文本原创 2021-05-28 18:10:31 · 467 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(三)知识图谱
分布式表示可以非常好的建立跨领域跨对象的知识迁移。有非常多的工作是去学习不同语言的各种词汇在同一个空间里统一的表示,这种表示对构建跨语言的知识迁移或者进行机器翻译都是非常重要的。此外有一个工作是试图建立视觉信息和文本信息联合统一的语义表示,现在有一个非常重要的新颖的任务是为图片自动产生一句关于图片的介绍Image Caption Generation,它是建立视觉和文本联合表示的非常有意思的任务。利用分布式表示进行词汇的语义表示可以进行很多相关领域的研究,如 《Diachronic Word Embedd原创 2021-05-28 17:36:10 · 302 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(二)word2vec
自然语言处理相关的对象包括词汇,词义,短语,实体,句子,文档,还有比如说社会网络,知识表示等等。本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点。 在词汇表示方面的经典模型是2013年google实习生Tomas Mikolov 在nips上发表论文《Efficient Estimation of Word Representation in Vector Space》,立刻引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到原创 2021-05-28 17:13:23 · 169 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(一)分布式表示
研究表示学习跟人工智能很多领域研究对象有关,这些领域包括自然语言处理,数据挖掘,社会网络分析,多媒体处理等等,他们研究的对象包括 :网络结构:用户及其关系和行为媒体信息:文本,视频,语音等信息知识图谱:结构化的世界知识那么研究自然语言处理领域的人会关注与现实世界相关的非常多的不同种类的数据的对象,当面向这些数据的对象做数据挖掘的时候,有一个非常严峻的挑战,就是这些信息本身是多源异构的,很难建立它们之间的语义关联,解决这个问题的方法与表示学习有关。在传统的数据挖掘或者说相关的领域里面,大多数数据原创 2021-05-28 17:01:20 · 612 阅读 · 0 评论 -
【转】自然语言系列学习之表示学习与知识获取(四)TransE
概述在知识表示学习方面,一个代表性的算法就是transe, 它的基本思想是把每一个实体和每一个关系都表示成一个低维的向量,它的想法是对于每一个事实,将其中的relation看成是从头实体到尾实体的一个翻译操作。那么反应到语义空间里,实际上它的基本思想是在低维的空间里对每一个三元组建立头实体向量h加上关系relation的向量r等于尾实体向量t的目标(h+r=t)。也就是对于任何一个三元组的向量关系满足h+r=t的等式。通过不断的优化知识图谱中的每一个事实的优化目标,然后尽可能不断的减小loss fun原创 2021-05-28 16:38:20 · 356 阅读 · 2 评论 -
TransE
网络上已经存在了大量知识库(KBs),比如OpenCyc,WordNet,Freebase,Dbpedia等等。这些知识库是为了各种各样的目的建立的,因此很难用到其他系统上面。为了发挥知识库的图(graph)性,也为了得到统计学习(包括机器学习和深度学习)的优势,我们需要将知识库嵌入(embedding)到一个低维空间里(比如10、20、50维)。我们都知道,获得了向量后,就可以运用各种数学工具进行分析。深度学习的输入也是向量。(考虑一下,word2vec,我们训练出一个向量后,可以做好多事情,深度学习的输原创 2021-05-21 14:54:12 · 1029 阅读 · 3 评论