知识图谱认知智能理论与实战----------第二章 知识图谱模式设计

一. 知识图谱模式

在这里插入图片描述

  • 实体:eg:法国,巴黎…
  • 关系:eg:属于,基于…
  • 三元组:<主语,谓词,宾语> eg:<巴黎,属于,法国>
    请添加图片描述

二. 模式与本体

  • 本体的核心目标:定义一组领域内的概念和类别,以及它们之间的关系来组织信息和知识。
  • 本体与知识图谱的区别:
    • 本体更多地追求知识的本质;知识图谱模式偏向于产业应用
    • 本体不仅包含知识本身,还包含许多推理逻辑;知识图谱模式更关注知识本身,与推理逻辑相分离

三. 本体概论

I. 模式与本体辨析
  • 模式和本体是对相同事物的不同表达。在大多数情况下,可以忽略两者区别,将模式视为分离了推理规则的本体。
    • 知识图谱领域倾向于使用模式
    • 语义网和哲学领域更倾向于使用本体
II.本体的构成要素
  • 实例:也称个体,类似于知识图谱中的实体。eg:贝多芬。
  • 类:实例的父类,和java当中的定义一样,也类似于知识图谱模式中的实体类型。eg:人物。
  • 属性:类可能具有的属性、特征、特性、参数、描述等。eg:人物的生日、性别…
  • 关系:类与类、概念与概念之间可能存在的关系。eg:is - a 或 has - a
  • 规则:基于类、属性和关系等元素来描述逻辑推断的语句。eg:音乐家是男的。
  • 公理:采用某种逻辑的断言或规则所共同构成的理论。eg:八大恒星属于银河系。
III.实体分类
  • 应用范围角度:
    • 基础本体(Foundation Ontology,FO):收录了适用于多个不同领域的共有的或核心的概念或术语。eg:Schema和COSMO。
      • Schema:基于协作性社区(schema.org)活动构建的本体,CNSchema是Schema的中文翻译。
        请添加图片描述
        请添加图片描述
      • COSMO(Common Semantic Model):通用语义模型,旨在收录所有语义原语。(利用这些原语能够从逻辑上明确说明任何领域本体的元素的含义。语义原语:指那些不能从本体中已经存在的概念的组合来表示的概念。)
        在这里插入图片描述
    • 领域本体:对特定领域的或者现实世界的一部分的事物、知识进行建模。eg:生物学、遗传学、金融领域等。eg:GO(Gene Ontology,GO):提供一个框架和一组概念来描述来自所有生物体的基因产能等功能。
      在这里插入图片描述
  • 形式化角度:
    • 轻量级本体: 类似于知识图谱模式,侧重于概念化,即知识和知识的层次结构。
    • 重量级本体 :使用丰富且完善的公理和规则来建模知识。
IV.实体分类
  • 资源描述框架(Resource Description Framework,RDF):用来描述Web资源的特性,及资源与资源之间的关系,是一个基础且通用的数据模型。
<?xml version=“1.0”?>
    <RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#>
        <Description about=http://www.dlib.org/dlib/may98/miller>
            <DC:title>
                An introduction to the Resource Description Framework
            </DC:title>
            <DC:creator>
                Eric Miller
            </DC:creator>
            <DC:date>
                1998-0501
            </DC:date>
        </Description>
    </RDF>

RDF详细内容,可以参考:https://blog.csdn.net/m0_37565948/article/details/81568054

四. 六韬法

  • 从场景、复用、事物、联系、约束、评价6个角度来设计知识图谱。
    在这里插入图片描述
I. 场景
  • “场景”:指所设计的知识图谱的服务范围,一般包括用于构建目标知识图谱的结构化数据和非结构化数据、知识存储的方式要求,以及基于目标知识图谱的各类应用。
  • 最关键的目标是对齐认知(清晰的描述动机,一致无歧义地理解环境,对齐参与各方对动机和环境的认知,并明确的表示出来,形成相应的文档)。具体如下图:
    在这里插入图片描述
  • 常见的方法:头脑风暴、问题清单、调查问卷、多方会议等。任何一种方法都是不完美的,不同的人往往会因为立场、背景、知识储备等原因发生分歧、产生冲突。
II. 复用

如果从零开始建立知识图谱,真的是太累了,可以复用别的数据,站在巨人的肩膀上。

  • 领域词汇表(实体名称)可以进行复用,eg:《外国音乐辞典》
  • 基础本体可以复用Schema、COSMO当中的一些内容。
  • 领域本体可以复用其他现成的知识图谱。eg:OpenKG(中文的开放知识图谱社区)
III. 事物

在知识图谱设计中,最核心和基础的就是设计好实体类型,用实体类型来清晰、明确和无歧义的描述一类事物,也包括了咋基本原则中所介绍的语义、外延、颗粒度等内容。

  • 定义类型,通常包括一下步骤:
    • 对事物的分类:厘清在场景中需要处理哪些类型的事物。
    • 对事物类别的命名:充分考虑命名的语义、外延和颗粒度。有些虽然类名、类别名、概念等说法不同,但是表示的却是一类事物。
    • 抽象出合适的特征:以属性名列表的方式来描述事物的多维特征。
    • “如无必要,勿增实体”:在满足需求的情况下,实体数量适量即可。
    • 事物是演化和发展的:实体类型和属性名列表并非是不变的、固定的,而是演化发展的。
  • 实体类型区分的越细,对下游应用的使用就越方便,但在构建知识图谱的时候遇到的困难就越多。需要权衡在场景的需求中是否需要划分为这几种类型。
    • eg:若研究的对象是音乐家在音乐领域的贡献,就对音乐家进行不断的细分,而对作品本身保证颗粒度大一些;
    • 若需要研究作品本身,作品本身就需要不断的细化,比如能够区分“大协奏曲”和“独奏协奏曲”等 。
IV. 联系

事物间是普遍联系的,即在任意两个实体间可以建立任意的关系。定义关系类型依赖于实体类型。

  • 定义关系类型的流程:
    • 依次选取实体类型列表中的每一个实体类型。
    • 梳理该实体类型和自身的关系
    • 梳理该实体类型和所有其他实体类型的关系
    • 对每个关系进行探讨,赋予一个适合的关系名称。(关系名称需要明确表达事物间的联系,并且在场景相关方中能能够有一致的表达)
    • 将定义好的关系类型可视化,并对每一个关系类型及其对应属性名列表进行评估,确定其必要性
  • 多用“继承”和“组合”这两种设计模式。
    • 继承:is a;has subclass;subclass of。
    • 组合:has a;part of;has part。
V. 约束

对模式的约束,包括数据类型、取值范围和权限控制三大部分内容。

  • 数据类型:
    • 基本数据类型: Character、Integer、Decimal、Complex、DateTime、SpatialDatatType、UUID、Binary等,书上P68页。
    • 复杂数据类型:list、set、map、tuple。
  • 取值范围:
    • 枚举类型约束(eg:国家列表、行政区列表)、数值类型的取值上下限、日期时间类型约束、文件类型(eg:对文件内容进行校验,区分JSON、XML等)、字符串约束规则(eg:手机号)、跨属性约束(eg:URL中的域名必须等于域名属性的值)等。
  • 权限控制:对广义资源的受众进行访问限制。
    • 通用方法;基于角色的访问控制。
VI. 评价
  • 复杂度、功能满足度、规范性、可读性、可扩展性、可运营性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值