知识图谱综述笔记

前言

最近开始研究知识图谱,首先看了几下综述,做一个总结性的描述。为之后学习奠定基础。

知识图谱构建结构图

首先我们先上在构建知识图谱的一个总体架构图。其定义应为如下,
知识图谱.是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构

结构图

知识图谱的架构

  • 逻辑层面

从上图可知,可以将知识图谱分为数据层和模式层,在数据层中,将实体知识数据存储在图数据库中。模式层在数据层之上,是d知识图谱的核心,其是经过提炼的知识。

  1. 构建角度
    将知识图谱分为信息抽取,知识融合,知识加工三个部分。知识图谱的技术架构
    构建知识图谱有自顶向下和自底向上两种方式,在初期基于指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中的自顶向下模式,现在自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。

构建过程

本文讲述自底向上的一个构建过程,主要经历三个步骤。

  1. 知识抽取
    从各种结构化,非结构化数据中抽取出实体,属性以及其关系的过程,这又包含了三种关键的抽取。

    1)实体抽取,对文本数据集中自动识别出命名实体,是最为关键和基础的部分,其发展历程从单一领域到开放域领域的抽取,单一领域的抽取最开始以人工编写规则进行抽取,耗费大量人力,为此发展出统计机器学习办法,利用K近邻、条件随机场模型、最大熵算法实现实体抽取
    2)关系抽取,上述实体抽取结束后,将会得到离散的实体,无法形成一个网状的知识图谱结构,为此需要寻找到实体和实体之间的关系链接,需要找到他们之间的关系,早期借助人工制定规则,采用模式匹配的方法,但是这及其考验人的某一专业素养,以及会耗费大量人力,为此发展出了通过最大熵,基于特征向量和核函数的有监督学习方法,但是这样需要标注大量语料,又转向了半监督和无监督的学习方法,种基于BootStrap算法的半监督学习方法,上述都是基于预先定义实体关系类的方法
    3)属性抽取,这是对实体的一种补充说明,说明实体的特征,百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来源,虽然百科类提供的半结构数据体量巨大,但是在现实生活中,其存量也只是冰山一角,为此发展出了从非结构化数据中提取属性的方法,其一是基于百科类网站自动抽取语料,用于训练模型,之后进行非结构化数据的抽取,其二是利用数据挖掘直接挖掘出文本之间的属性关系

  2. 知识融合
    经过知识抽取,将会获得大量的实体属性关系,但是其只是较为冗余,还有很多错误信息,这就需要这一步的进一步处理,知识融合主要包括了实体链接和知识合并。
    1)实体链接,指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的一般流程是:(1)从文本中通过实体抽取得到实体指称项;(2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;(3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体
    2) 知识合并 ,知识合并简单来说就是对第三方知识库的一个融合操作,涉及(1)合并外部知识库,将会处理的是数据层实体,属性名称等问题,逻辑层上,将新得到的本体融合到已有数据库中。(2)合并关系数据库,将企业机构的结构化数据融合到知识图谱中,这一数据转换过程称为RDB2RDF。

  3. 知识加工
    经过上述两个过程,已经基本得到了以事实为依据的关系网,但是我们要知道,事实并不等同于知识,为此,需要经过进一步的加工处理。
    1)本体构建 ,本体是描述客观世界的抽象模型,当前主流的本体库产品,都是面向特定领域现有本体库出发,采用自动构建技术逐步扩展得到的。数据驱动的自动化本体构建过程包含3个阶段:实体并列关系相似计算、实体上下位关系抽取以及本体的生成。还存在跨语言知识链接方法,主要集中在实体聚类的方法。
    2)知识推理,指从已有的关系中推理出实体间的隐含关系,分为两大类,基于逻辑的推理和基于图的推理。

  4. 知识更新
    从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。有两种方式更新。数据驱动下的全面更新和增量更新。全面更新构建方式较为简单,但资源消耗大,增量更新资源消耗小,但目前仍需大量人工干预。

跨语言知识图谱构建

跨语言的知识图谱能够有效弥补单语言知识库的不足;充分利用多语种在知识上的互补;进一步过滤错误信息。

  1. 跨语言知识抽取
    借助于丰富的源语种知识自动抽取缺失的目标语种知识。目前的方法基本是基于机器翻译再进行抽取,这会导致性能很大的依赖于机器翻译的结果。之后提出的迁移学习方法,利用源语种知识库中丰富的无结构文本信息以及结构化信息,提高了目标语种知识库中信息抽取的数量和质量。
  2. 跨语言知识链接
    这是跨语言的一个关键性问题,包括模式层和数据层的链接。模式层的核心在于本体映射。

知识图谱的应用

现阶段知识图谱的应用还主要集中在智能语义的搜索 、移动个人助理、深度问答系统。

问题与挑战

  1. 知识抽取,面向开放域的研究处于一个起步阶段
  2. 知识融合, 如何实现准确的实体链接是一个主要挑战
  3. 知识加工,目前,本体构建问题的研究焦点是聚类问题,对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系。知识推理的方法和应用研究是当前该领域最为困难,同时也是最为吸引人的问题,需要突破现有技术和思维方式的限制,知识推理技术的创新也将对
    知识图谱的应用产生深远影响。
  4. 知识更新,由于现在的增量更新需要大量的人工干预,亟需发展改变。
  5. 知识的表达、存储与查询问题,这个问题伴随着知识图谱发展的始终,当前还是将数据存放在图数据库中。但失去了关系数据库的优点。

结语

知识图谱作为提出近十年的产品,随着海量数据的增加,有着很大的发展前景,作为单一领域的知识图谱发展也需要进一步的研究,笔者在这方面刚刚入门,还有很多技术需要去探索实现。期待与大家共同交流。

参考文献

[1]刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值