个人学习笔记知识图谱:知识表示(2)

本篇的符号表示

知识表示学习

在(1)中我么提到过,知识图谱(h,r,t)三元组符号表示面临着一些挑战,这就迎来了我们今天的要讨论的问题,知识表示学习。

知识表示的最终目的,在保证语义不变的条件下,将实体的语义信息映射到低维、稠密、实质的向量空间中,使语义相似的两个实体对象之间的距离也相近。

知识图谱的符号表示方法

属性图

  属性图是图数据库Neo4J实现的图结构表示模型。

  属性图是由顶点(Vertex)、边(Edfe)、标签(Label)、关系类型和属性(Property)组成的有向图。顶点也称为节点(Node),边也称为关系(Relationship)。节点上包含属性,属性可以以任何键值形式存在。

  关系边连接节点,每条关系边都有一个方向、一个标签、一个开始节点和一个结束节点。关系边的方向的标签使得属性图具有语义化特征。和节点一样,关系边也可以有属性,即边属性。

RDF图模型

资源描述框架(Resource Description Framework, RDF),R代表页面,图片、视频等任何具有URI标识符,D标识属性、特征和资源之间的关系,F标识模型、语言和这些描述的语法。RDF的基本组成单元室三元组。

RDF三元组可以看做是图模型的边和顶点(vertex,edge,vertex),还可以将两个三元组结合起来表示:

RDFS(RDF Schema)在RDF的基础上提供了一个术语、概念的定义方式,以及那些属性可以应用到哪些对象上。换句话说,RDFS为RDF模型提供了一个基本的类型系统。有了RDFS,已经可以实现最简单的符号推理。

OWL和OWL2

通过RDF(S)可以表达一些简单的语义,但在更复杂的场景下,RDF(S)语义表达能力显得太弱,还缺少诸多常用的特征。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。因此W3C提出了OWL语言扩展RDF(S),作为语义网上表示本体的推荐语言。

知识图谱的向量表示

词向量表示

在传统的词向量表示中,比如One-hot Encoding,每个词向量的大小是整个词典的大小。在这个向量中,除了与该词对应的位置为1外,其他位置均为0,如下图所示。这种方法的一个显然的缺点是空间消耗比较大。扩展出去,给定一个文档,可以用这个文档中出现的所有词的个数来组成这个文档的向量表示,这种向量的大小也是整个词典的大小。这种表示方法的另外一个缺点是实际上无法有效地表示词的语义。

所以,希望通过统计词在大量语料中的上下文规律,并通过词的上下文计算词的这种分布式向量表示。和One-hot Encoding不一样,这种分布式向量的每一个维度都有数值,且它的维度远远低于词库的大小,并且是通过语料统计学习出来的,称为低维稠密的向量表示,也称为词向量表示(Word Embedding)。例如,通过对大量语料进行统计学习,可以为“蝴蝶”“瓢虫”“飞”“爬”等词学习它们的向量表示,会发现这些词在向量表示空间有一些规律,比如蝴蝶和飞比较接近,而瓢虫则和爬比较接近,如下图所示:

从词向量到实体向量

接下来从词的向量表示过渡到知识图谱的向量表示。有一类词是代表实体的,假如对这类实体词的向量做一些计算,比如用Rome向量减去Italy的向量,会发现这个差值和用Paris的向量减去France的向量比较接近。这里的原因是Rome和Italy之间,以及Paris和France之间都存在is-capital-of的关系

知识图谱向量表示学习模型

transE模型

transE模型将知识三元组中的实体h,t和关系r映射到同一个低维实值的向量空间R中,将实体与实体之间的关系表示为实体向量之间的平移操作。

h,r,t的向量表示应该满足h+r≈t的加法关系。

*h+r-t应该无限接近于原点,L1/L2:L1或L2范数

\tau是我们知识图谱中的一个三元组元素集合,即正例三元组集合,\tau {}'为负例三元组集合(即不存在的三元组集合)(例:保留尾实体,替换头实体({h}',r,t)),\gamma用来调整正样本与负样本之间的距离,利用其使二者之间的距离尽可能远。因为本身是h+rt,之间的误差我们无法得知是负样本带来的还是本身存在的。整个公式\zeta就是对每一个三元组定义一个评分函数E(h,r,t),然后对所有三元组(正样本,负样本)累加计算损失函数\varsigma,这里的优化目标就是让真实存在的三元组得分尽可能高,而让不存在的三元组得分尽可能低。

由此而知transE模型通过最大化正负例三元组之间的得分差来优化知识表示。

DistMult

另一类知识图谱嵌入式表示学习模型是以DistMult为代表的基于线性变换的学习模型。与TransE采用的加法不同,DistMult采用乘法,并用一个矩阵来表示向量关系,如果一个三元组(h,r,t)存在,那么h的向量乘以r矩阵应该近似接近于t的向量表示。(关系有可能有很多维,会将实体映射到不同的空间,拓展空间的表达能力)

DistMult与TransR模型?

TransR模型

参考:知识图谱中的知识表示学习_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值