知识表示:用计算机符号来描述人脑中的知识,以及通过符号之间的运算来模拟人脑的推理过程。
语义网核心:RDF OWL
知识表示方法
一阶谓词逻辑表示法
产生式规则表示法
框架表示法
语义网表示法
分布式知识表示
谓词逻辑
非常严谨!以数理逻辑为基础,是到目前为止能够表达人类思维和推理的一种最精确的形式语言。
常见谓词逻辑:
谓词是一种断言!!!!!
用谓词逻辑既可以表示事物的状态、属性、概念等事实性知识,也可以表示事物间具有因果关系的规则性知识。
用谓词逻辑表示知识的一般步骤:
1.定义谓词及个体,确定每个谓词及个体的确切含义。
2.根据所要表达的事物或概念,为每个谓词中的变量赋以特定的值。
3.根据所要表达的知识的语义,用适当的逻辑联结词将各个谓词连接起来形成谓词公式。
优点:
精确性:可以较准确地表示知识并支持精确推理。
通用性:拥有通用的逻辑演算方法和推理规则。
自然性:是一种接近于人类自然语言的形式语言系统。
模块化:各条知识相对独立,它们之间不直接发生联系,便于知识的添加、删除和修改。
缺点:
表示能力差:只能表示确定性知识,不能表示非确定性知识、过程性知识和启发式知识。
管理困难:缺乏知识的组织原则,知识库管理困难。
效率低:把推理演算与知识含义截然分开,往往使推理过程冗长,降低了系统效率。
产生式规则表示法
产生式系统是用规则序列的形式来描述问题的思维过程,形成求解问题的思维模式。
系统中的每一条规则称为一个产生式。
案例:
优点:
有效性:既可以表示确定性知识,又可以表示不确定性知识,有利于启发性和过程性知识的表达。
自然性:用“如果…,则…”表示知识,直观、自然。
一致性:所有规则具有相同的格式,并且数据库可被所有规则访问,便于统一处理。
模块化:各条规则之间只能通过数据库发生联系,不能相互调用,便于知识的添加、删除和修改。
缺点:
效率低:求解是反复进行的“匹配—冲突消解—执行”过程,执行效率低。
表示的局限性:不能表示结构性或层次性知识!!
框架表示法
框架表示法是以框架理论为基础发展起来的一种结构化知识表示方式,适用于表达多种类型的知识。框架理论认为人们对现实世界中各种事物的认识都是以一种类似于框架的结构存储在记忆当中的,当面临一个新事物时,就从记忆中找出一个适合的框架,并根据实际情况对其细节加以修改补充,从而形成对当前事物的认识。
框架分为两种类型:
类框架(class frame)用于描述一个概念或一类对象。
实例框架(instance frame)用于描述一个具体的对象。
框架的层次结构:
子类-subclass of->父类:类框架之间的包含关系。
实例-instance of->类:实例框架和类框架的从属关系。
下层框架可以从上层框架继承某些属性和值。后文对两者
不做区分,统称为“类属”关系。
优点:
结构化:分层次嵌套式结构,既可以表示知识的内部结构,又可以表示知识之间的联系。
继承性:下层框架可以从上层框架继承某些属性或值,也可以进行补充修改,减少冗余信息并节省存储空间。
自然性:框架理论符合人类认知的思维过程。
模块化:每个框架是相对独立的数据结构,便于知识的添加、删除和修改。
缺点:
不能表示过程性知识。
缺乏明确的推理机制。
语义网表示
语义网提供了一套为描述数据而设计的表示语言和工具,用于形式化的描述一个知识领域内的概念、术语和关系。
OWL有更强大的语义表达能力
XML
XML(eXtensible Markup Language,可扩展标记语言)是最早的语义网表示语言,它取消了HTML的显示样式和布局描述能力,突出了数据的语义和元素结构描述能力。
用于存储和传输数据,侧重于如何结构化地描述信息
XML的元素代表XML文档所描述的“事件”,比如书籍、作者和出版商。
一个元素由起始标签、元素内容和结尾标签构成。
<author>Thomas B. Passin</author>
用户可以随意地选择标签名,只有很少的限制。元素具有嵌套结构,并且没有约束嵌套的深度。
<author>
<name>Thomas B. Passin</name>
<gender>Male</gender>
<phone>+61-7-3875 507</phone>
</author>
与HTML类似,XML也可拥有属性,即元素名称-值对,可以表达与元素相同的语义。
<author name=“Thomas B. Passin”
phone=“+61-7-3875 507”/>
gender=“Male”
属性也可以与元素混合使用,但是不能嵌套。
<author name=“Thomas B. Passin” gender=“Male” >
<phone>+61-7-3875 507</phone>
</author>
属性具有唯一性!!
子元素可以有多值
用Xlink去描述关系
XML优点:
结构化的数据表示方式,使得数据内容与其形式分离。良好的可扩展性,使用者可创建和使用自己的标记,可定义行业领域特殊的标记语言,进行数据共享和交换。包含文档类型声明,其数据可被任何XML解析器提取、分析、处理,可以轻松地跨平台应用。
XML缺点:
XML是一种元标记语言,任何组织或个人都可以用它来定义新的标记和标准,容易产生冲突和混乱。
XML文档作为数据集合使用时,相当于一个数据库,不具备数据库管理系统那样完备的功能。
数据是以树状结构存储的,插入和修改比较困难。
RDF
RDF(Resource Description Framework,资源描述框架)是一种资源描述语言,利用当前的多种元数据标准来描述各种网络资源,形成人机可读,并可由机器自动处理的文件。
RDF的核心思想: 利用Web标识符(URI)来标识事物,通过指定的属性和相应的值描述资源的性质或资源之间的关系。
数据模型:
案例:
RDF Schema
RDFS是RDF的扩展,它在RDF的基础上提供了一组建模原语,用来描述类、属性以及它们之间的关系。
Class, subClassOf:描述类别层次结构。
Property, subPropertyOf:描述属性层次结构。
domain, range:声明属性所应用的资源类和属性值类。
type:声明一个资源是一个类的实例。
案例:
RDF(S)特性
优点:
简单:资源以三元组的形式描述,简单、易控制。
易扩展:描述和词汇集分开,具备良好的可扩展性。
包容性:允许定义自己的词汇集,并可以无缝使用多种词汇集来描述资源。
易综合:RDF认为一切都是资源,这样很容易综合描述。
缺点:
不能准确描述语义:同一个概念有多种词汇表示,同一个词汇有多种含义(概念)。
没有推理模型,不具备推理能力。
Ontology(本体)通过对概念的严格定义和概念与概念之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识。
对于ontology来说,author,creator和writer是同一个概念,而doctor在大学和医院分别表示的是两个概念。因此在语义网中,ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。
Studer:本体是共享概念模型的明确的形式化规范说明。
特点:
概念模型 (conceptualization):本体是通过抽象客观世界的概念而得到的模型,其表示的含义独立于具体的环境状态。
明确性 (explicit):本体所使用的概念及使用这些概念的约束都有明确的定义,没有二义性。
形式化 (formal):本体是计算机可处理的,而非自然语言。
共享 (shared):本体体现的是共同认可的知识,反映的是相关领域中公认的概念集合,它所针对的是团体而非个体。
OWL
OWL (Web Ontology Language,Web本体语言)是在语义网上表示本体的推荐语言,作为RDF(S)的扩展,其目的是提供更多原语以支持更加丰富的语义表达并支持推理。
OWL的三个子语言:
Lite:提供一个分类层次和简单属性约束。
DL:提供推理系统,保证计算完备性和可判定性。
Full:支持完全自由的RDF语法,但是不具备可计算性保证。
表达能力:OWL Lite < OWL DL < OWL Full
总结:
分布式知识表示
核心思想:将样本(符号化的实体和关系)通过变换映射到一个低维稠密的空间里,用低维度向量表示原始样本。在简化计算的同时最大程度保留原始的图结构。
映射!!!
表示学习:自动从数据中自动学习有用的特征,用于后续的任务中!
统计语言模型
– 把语言(词的序列)看作一个随机事件,并赋予相应的概率来描述其属于某种语言集合的可能性。
– 给定一个词汇集合 V,对于一个由 V 中的词构成的序列S = ⟨w1, … , wT ⟩ ∈ Vn,统计语言模型赋予这个序列一个概率P(S),来衡量S 符合自然语言的语法和语义规则的置信度。
– 一个句子的打分概率越高,越说明他是更合乎人说出来的自然句子。
核心:上下文相似的词,其语义也相似。
连续词带模型:
A是临接矩阵
A+I是为了统计本身的信息
D是度矩阵(对角线)
DAD相当于对A的归一化操作