目录
Semantic Web
RDF
RDFS
OWL
Knowledge Graph
位移距离模型
语义匹配模型
Semantic Web
XML
用于存储和传输数据,侧重于如何结构化地描述信息
<author>
<name>Xnhyacinth</name>
<gender>Male</gender>
<phone>+61-7-3875 507</phone>
</author>
RDF
Resource Description Framework
利用Web标识符(URI)来标识事物,通过指定的属性和相应的值描述资源的性质或资源之间的关系
基本数据模型:
- 资源(resource):一切能够以RDF描述的对象都叫资源,用唯一的URI来表示
- 属性(property):用来描述资源的特征或资源之间的关系,每一个属性都有特定的意义
- 陈述(statement):特定的资源加上一个属性和相应的属性值就是一个陈述,其中资源是主体(subject),属性是谓词(predicate),属性值是客体(object)
URI来表示
RDF Schema
RDFS是RDF的扩展,它在RDF的基础上提供了一组建模原语,用来描述类、属性以及它们之间的关系
- Class, subClassOf:描述类别层次结构
- Property, subPropertyOf:描述属性层次结构
- domain, range:声明属性所应用的资源类和属性值类
- type:声明一个资源是一个类的实例
RDF,RDFS和XML
- RDF并不是一种语言,只是一种书写规范
- RDF是一个抽象的数据模型,其基本构造为陈述,即资源-属性-属性值三元组,表示这是一个什么事物,它具有什么属性,这些属性应该有什么样的属性值
- XML用来做为描述这种抽象的数据模型的具体书写方式(除了XML,也有如Turtle、JSON-LD、NTriples等流行格式)
- 同样因为现实世界的超级复杂性,预定义的词汇根本不够用,我们就使用RDF Schema来自定义词汇
RDF(S)特性
- 优点:
简单:资源以三元组的形式描述,简单、易控制
易扩展:描述和词汇集分开,具备良好的可扩展性
包容性:允许定义自己的词汇集,并可以无缝使用多种词汇集来描述资源
易综合:RDF认为一切都是资源,这样很容易综合描述 - 缺点:
不能准确描述语义:同一个概念有多种词汇表示,同一个词汇有多种含义(概念)
没有推理模型,不具备推理能力
Web Ontology Language (OWL)
Ontology
An ontology is a formal, explicit specification of a shared conceptualization.
本体是共享概念模型的明确的形式化规范说明
- 概念模型 (conceptualization):本体是通过抽象客观世界的概念而得到的模型,其含义独立于具体的环境状态
- 明确性 (explicit):本体所使用的概念及使用这些概念的约束都有明确的定义,没有二义性
- 形式化 (formal):本体是计算机可处理的,而非自然语言
- 共享 (shared):本体体现的是共同认可的知识,反映的是相关领域中公认的概念集合,它所针对的是团体而非个体
OWL
在语义网上表示本体的推荐语言,作为RDF(S)的扩展
其目的是:提供更多原语以支持更加丰富的语义表达并支持推理
OWL头部
OWL描述本体时,会利用命名空间中预定义的标签来形成本体头部,对本体进行声明
OWL本体
OWL的核心,描述本体的具体内容,即定义类(class)、个体(individual)和属性(property),添加约束和关联等
OWL类
- 类的定义:通常使用 owl:Class 和 rdfs:subClassOf 标签
- OWL中定义了所有类的基类owl:Thing,以及空类owl:Nothing
OWL个体
个体的实例化定义必须基于某个类,以声明它是其一员
<owl:Thing rdf:ID=“姚明”/>
<owl:Thing rdf:about=“#姚明”>
<rdfs:type rdf:resource=“#篮球运动员”/>
</owl:Thing>
OWL属性
-
属性(Property):属性是二元关系,需标明定义域和值域
-
定义域(domain):指明某个属性可用于哪个类
-
值域(range):分为两类
数据类型属性(DatatypeProperty):连接个体和数据类型<owl:DatatypeProperty rdf:ID=“运动员身高”>
<rdfs:domain rdf:resource=“#运动员”>
<rdfs:range rdf:resource=“&xsd;unsignedLong”/>
</owl:DatatypeProperty>对象属性(ObjectProperty):连接个体与另一个个体
<owl:ObjectProperty rdf:ID=“对应教练”>
<rdfs:domain rdf:resource=“#运动员”>
<rdfs:range rdf:resource=“#教练员”/>
</owl:ObjectProperty>
OWL属性特征
- 属性可能有一些特征,如传递性、对称性等,通过type标签指定OWL预定义的属性特征
<owl:ObjectProperty rdf:ID=“队友”>
<rdfs:domain rdf:resource=“#运动员”>
<rdfs:range rdf:resource=“#运动员”/>
<rdf:type rdf:resource=“&owl;SymmetricProperty” />
</owl:ObjectProperty>
<运动员 rdf:ID=“易建联”><队友 rdf:resource=“赵继伟”/></运动员>
<运动员 rdf:ID=“赵继伟”><队友 rdf:resource=“易建联”/></运动员>
- 属性特征并非OWL强制要求,但尽量多的属性特征描述有助于推理算法的实现
OWL属性性质
属性的值域可以在某个类的定义中以继承的方式进一步限制,仅对这个类的个体有效。限制包括基数限制等
<owl:Class rdf:ID=“篮球队”>
<rdfs:label xml:lang="en">basketballTeam</rdfs:label>
<rdfs:subClassOf rdf:resource=“#球队” />
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=“#现役球员"/>
<owl:cardinality rdf:datatype="&xsd;int">12</owl:cardinality>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
其他OWL建模原语(primitives)
- OWL还提供了其他的原语来建模类别、个体及属性。
- 按照不同的表现力,有的原语在OWL Lite中有限制或不可用,OWL DL和OWL Full中可用所有的原语。
- 类别描述式 (class descriptions):
枚举
owl:oneOf (DL)
属性值约束
owl:allValuesFrom (Lite), owl:someValuesFrom (Lite), owl:hasValue (DL)
属性基数约束(Lite中仅能取0或1,DL中可以取任意值)
owl:maxCadinality, owl:minCadinality, owl:cadinality
交集、并集、补集
owl:intersectionOf, owl:unionOf (DL), owl:complementOf (DL)
- 类公理(class axioms):
子类、等价类、不相交类
rdfs:subClassOf (Lite), owl:equivalentClass (DL), owl:disjointWith (DL)
- 属性公理(property axioms):
RDFS属性构造 (Lite)
rdfs:subPropertyOf, rdfs:domain, rdfs:range
与其他属性的关系 (Lite)
owl:equivalentProperty, owl:inverseOf
针对属性的全局基数限制 (Lite)
owl:FunctionalProperty, owl:InverseFunctionalProperty
属性的逻辑特征 (Lite)
owl:TransitiveProperty, owl:SymmetricProperty
- 个体公理:
个体同一性 (Lite)
owl:sameAs, owl:differentFrom, owl:allDifferent
RIF
- Rule Interchange Format
- RIF是W3C定义的一套针对规则的抽象语言。它与OWL兼容,可结合OWL公理进行推理。
- RIF规则是一个文档,其中有多个组(Group),每个组是多条规则的合取∧,而单条规则往往包含“如果…那么
Knowledge Graph
知识图谱:符号主义典型代表
- 概念或关系的语义蕴含在形式化知识结构中
- 通过数理推算和近似推理进行语义计算(文具解析和知识推理)
分布式表示:连接主义典型代表
- 数值表示词语,属性,及关系
- 通过数值计算进行语义计算和知识推理
易于数值计算的表示:分布表示
表示:特征工程–>特征学习(表示学习)
分布式知识表示
主要过程
核心思想:将符号化的实体和关系在低维连续向量空间中进行表示,在简化计算的同时最大程度保留原始的图结构
- 将实体和关系在向量空间进行表示(向量/矩阵/张量)
- 定义打分函数,衡量每个三元组成立的可能性
- 构造优化问题,学习实体和关系的低维连续向量表示
方法类型:
- 位移距离模型 (translational distance models):基于位移假设,即头尾实体的表示存在位移关系,采用基于“头尾实体表示的位移”与“关系表示”的距离的打分函数来衡量三元组成立的可能性
- 语义匹配模型 (semantic matching models):无上述假设,直接利用头实体、关系和尾实体的数值表示进行计算,采用基于相似度的打分函数来衡量三元组成立的可能性
位移距离模型
TransE及其变种
- 目标:头尾实体表示之差与关系表示一致
- head entity + relation = tail entity
语义匹配模型
RESCAL及其变种
- 直接根据三元组头尾实体和关系的表示定义计算函数
- matching(relation, composition(head, tail))