【转】自然语言系列学习之表示学习与知识获取(三)知识图谱

分布式表示可以非常好的建立跨领域跨对象的知识迁移。有非常多的工作是去学习不同语言的各种词汇在同一个空间里统一的表示,这种表示对构建跨语言的知识迁移或者进行机器翻译都是非常重要的。此外有一个工作是试图建立视觉信息和文本信息联合统一的语义表示,现在有一个非常重要的新颖的任务是为图片自动产生一句关于图片的介绍Image Caption Generation,它是建立视觉和文本联合表示的非常有意思的任务。

利用分布式表示进行词汇的语义表示可以进行很多相关领域的研究,如 《Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change》(https://arxiv.org/abs/1605.09096)是Stanford lp group在acl2016上发表的一篇文章,它是关于构建同一个词在不同的历史时期的word in value的情况。

在这里插入图片描述
实际上它就可以很好的去发现这些词的语义信息,随着时间的变化,它演化的情况,这说明分布式表示可以有效的支持相关的语言学家进行语义演化的研究。

上面是通过词汇表示的方向来简单介绍分布式表示的一些优势,接下来会花比较多的时间介绍知识表示一些相关的思想进展,还有它在知识获取方面的一些应用。

知识表示的研究对象是知识图谱,知识图谱主要包括实体和关系两个主要对象(节点代表实体,连边代表关系)。

在这里插入图片描述

根据上图,知识图谱中每一个节点代表一个不同的实体,这些实体之间的连边实际上反映了它们的关系,知识图谱与传统的社会网络不同的地方在于在它里面每一条边实际上都会带有明确标识类型关系的标签,它实际上让知识图谱变得更加复杂的同时也变得更加有表达能力

知识图谱也可以通过三元组的形式进行表示,这种三元组(head,relation,tail)的表述,是一种典型基于符号的表示方法。也就是上图可以用若干三元组表示,每一个三元组包括头实体,尾实体和他们之间的某一种关系。比如上图中patti和miami之间有born in的关系,那么头实体就是head,尾实体就是miami,他们之间的relation关系是born in,也就是说知识图谱可以用若干个三元组来进行这种符号表示。

具有代表性的知识图谱非常多,这里面举两个例子,一个是反应人类的语言知识的wordnet,它是一个非常有代表性的被自然语言学者广泛应用的知识图谱库。另外一个非常有代表性的知识图谱是关于世界相关知识的freebase,freeebase是被Google收购的一家创业公司,在收购之后逐渐扩充,逐渐成为世界上最大的一个公开的知识图谱库。它在2014年被谷歌闭源,相关的知识库已经transform到了wikidata中。

知识图谱典型代表方案是基于符号表示的三元组(rdf)形式,这种基于符号的表示有一个非常大的问题是它假设所有的实体或者说所有的关系,他们互相之间都是相互独立的, 那么其实我们没有很好和有效的办法去衡量这些实体之间的语义关系,过去有非常多的研究算法被提出来,尝试计算这些实体之间语义的关系,但是由于它们都是基于图的算法,比如寻找最短路径来反应两个实体之间的关系,这个计算过程其实是复杂度的非常高的一件事情,那么我们找到一个解决方案是将知识映射到低维向量空间中去,譬如把实体之间的关系能够映射到低维向量空间中,这样就可以很好的表示它们背后的语义信息,也能够很好的计算任意两个实体之间的语义关系,这就是这个解决方案的一个基本的思想。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值