知识图谱学习记录--知识图谱概述

仅此记录本人在知识图谱学习路上的笔记,仅供参考
参照书目为《知识图谱概念与技术》肖仰华等著

知识图谱概述

本文主要包含以下内容:…

知识图谱的基本概念

知识图谱(Knowledge Graph)概念由Goole公司从2012年提出,随着大数据人工智能技术的飞速发展,知识图谱技术发展迅速,其内涵也越来越丰富。
狭义的知识图谱特指一类知识表示,本质上是一种大规模语义网络。而广义的知识图谱是大数据知识工程一系列技术的总称,在一定程度上指代大数据知识工程这一新兴学科。
“知识图谱”刚提出时是Goole为了支撑其语义搜索而建立的知识库。而随着知识图谱技术应用的神话,知识图谱已经成为大数据时代最重要的知识表示形式。作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体、概念及其之间的各种语义关系。 举个例子,我,陈某作为一个实体,我是一名学生,学生就是一个概念。
知识图谱本质上是语义网络;且其规模巨大,这是知识图谱与传统语义网络的根本区别。
语义网络是一种以图形化的形式通过点和边表达知识的方式,点和边为其基本组成元素。语义网络中的可以是实体、概念和值。简要介绍这三个概念的意思。
实体也可以称为对象(Object)和实例(Instance)。实体是概念的实例。关于实体的定义在学术界内至今都没有形成共识。这里用黑格尔的一句话“能够独立存在的,作为一切属性的基础和万物本源的东西”来分析。简单说就是不对其他东西产生依赖就能存在。比如说体重,仅仅说体重是没有意义的,它需要具体到某一个人,作为这个人的属性而存在;单纯的学生也是没有意义的,它是一个概念,它们都需要一个明确指向,某学生陈某的体重,这样的指向才是有意义的。
概念概念又被称为类别、类等。比如“学生”不是指特定一个人,一类人,这一类人有着相同或相似的描述模板,从而构成一个概念。概念是一些信息概念化或者范畴化后的产物,比如我在健身房的一系列动作显然和健身这一概念相关。范畴主要指将特定实体归类到相应类别的过程,比如,我可以归类到研究生这一类别中。
每个实体都具有一定的属性值。它可以是任何类型的数据。比如我的身高是1.73米,我国国土面积为960万平方千米,这属于数值类型;今天是2020年某月某日,这是日期类型;我的英文名是abcdefg,这是文本类型,等等。
知识图谱中的可以分为属性与关系两类。属性描述实体某方面的特性,是人们认知世界、描述世界的基础。 当实体的属性仍是实体时,该属性实质上就是关系,因此关系可以认为是一类特殊的属性。 很多应用中并未将属性和关系作区分,都是混合使用。关系对于知识图谱上的多步遍历以及沿着语义关系的长程推理十分重要。显然知识的推理必然会结束,当知识图谱上的推理操作遇到一个属性时,意味着此次推理的结束。 比如想知道我的姐姐的职业,需要在知识图谱中从我沿着姐弟关系找到我姐姐,再沿着职业这个属性找到答案。

前面经常提到语义网络,那么知识图谱和传统的语义网络有什么区别?这个问题解释了知识图谱的存在价值。知识图谱和传统语义网络最明显的区别是其规模巨大,此外还有其语义更丰富、质量更精良、结构更友好等特性上。这些有点也会导致一些缺点:高质量模式缺失(提升知识图谱的规模往往会付出质量方面的代价)、封闭世界假设不再成立(CWA,其认为数据库或知识库中不存在或为观测到的事实都为不成立的事实,而实际上缺失的事实并非是假的)、大规模自动化知识获取成为前提(知识图谱规模巨大,实现需要依赖自动化知识获取)。
除了语义网络外,知识图谱和本体的区别也是值得分析的。本体刻画了人们认知一个领域的基本框架,侧重于对存在进行规定和刻画,其提出的动机是为了知识的共享与复用以及数据的互联和互通。本体一般是不包含数据实例的框架,而知识图谱包含实大量实体与关系的实例,因此在建设知识图谱的初期,模式的定义实质上是在完成本体定义的任务。

知识图谱的历史沿革

以知识图谱为代表的大数据知识工程的产生具有历史必然性。
早期的人工智能专家认为机器和人工智能的本质都是符号的操作和运算。传统知识工程解决的都是具有规则明确、应用封闭的特点,比如几何定理证明。这一局限性归根结底是由于其对人为干预的严重依赖。这意味着传统的专家系统需要借助大量的人力参与。以下是传统知识工程的局限性:隐性知识和过程知识等难以表达(很多知识从根本上是很难表征的)、知识表达的主观性与不一致性(每个人对知识的表示都带有主观因素,因此会导致不一致)、知识难以完备(开放性应用的知识无穷无尽)、知识更新困难(知识具有时效性,如我是学生这一事实是在我毕业前才有效,能否及时更新关系到知识库在实际应用中是否有效)。
传统知识工程在知识表示与获取方面的祝福哦缺陷限制了知识应用的效果。这一结果的根本原因在于,传统知识工程难以适用于开放性应用(只要应用不是绝对封闭的,开放性应用很容易超出预先设定的知识库边界)。而常识的需求也使传统知识工程应用愈发困难。常识使每个人都熟知的难以言表的知识(关于常识定义问题仍存在争议)。比如一个人要么是男人要么是女人。但是机器不知道,这就导致机器的知识难以和人的思考达到相似的效果。
如今的互联网具有规模巨大、精度要求相对不高(搜索引擎不需要保证每个关键词检索都为100%正确的)、知识推理简单(搜一个x教授,系统给我们推荐其代表论文等信息,这是因为x教授因其学术造诣而闻名)三个特点,这也导致其很容易超出专家预设好的知识库边界。为了解决该问题,知识图谱出现宣告了只是共同工程进入大数据时代,这也给知识图谱的发展带来了新的机遇。具体表现在三个方面:1)数据、算力和模型的飞速发展使得大规模自动化知识获取称为可能。2)众包技术使得知识的规模化验证成为可能。3)高质量的用户生成内容提供了高质量知识库来源。大数据知识工程势必承担起突破传统知识工程在知识库规模与质量等方面的瓶颈和历史使命。

知识图谱的研究意义

知识图谱的研究价值体现在它是实现认知智能的基石。其重要性主要体现在三个方面:1)知识图谱使能机器语言认知。自然语言有歧义性、多样性,语义理解有模糊性和上下文依赖性。人类的语言理解是建立在认知能力基础上的。我们和一个西方人将中文笑话,他们听不懂,反过来他们和我们讲我们也体会不到幽默之处,这是背景知识不同导致的,因此机器理解自然语言也需要背景知识。2)知识图谱赋能可解释人工智能。 人们搜索一个“如何”、“为什么”和“怎么做”的问题时,需要的是机器解释这一具体事件的完整过程或其中的缘由,而不是仅仅需要一个答案。比如我搜索如何从广州去北京,结果应该告诉我从何地以何种的方式(火车、汽车、飞机等)坐几号运输工具到何地下及它们所需的花费,这是智能的非常重要的体现。知识图谱的出现使这些描述成为可能。比如我们认为鸟会飞是因为它有翅膀,这是在用关系解释其会飞的原因。这体现人类在用概念、属性、关系这些基本认知去解释现象和事实3)知识有助于增强机器学习的能力。 一只猫和狗,想要判断需要大量数据训练。而我们学习高效使我们能够适应开放环境。这意味着我们的学习不是从零开始的,因为人类擅长结合丰富的先验知识展开学习

知识图谱的应用价值

机器智能化的过程本质上是人脑不断解放的过程,我们的目的就是让机器像人一样思考,人工智能的广泛应用也对知识图谱提出了不一样的需求。
数据分析:大数据的精准和精细分析需要知识图谱。精准体现在准确性上,在机器缺乏背景知识的情况下这种精准难以实现。之前比较火的王宝强离婚案发生前,某平台热搜前三的关键词为‘王宝强’,‘王宝宝’,‘宝强’,显然这三者都是同一人,由于机器缺乏我们人类的背景知识,他不知道这三者为同一人,所以达不到精准分析的目的。而精细分析是另一个重要领域,这能让我们更深入了解所搜索的信息。
智慧搜索:智慧搜索需要知识图谱。体现在精准的搜索意图理解、搜索对象复杂化和多元化、搜索力度多元化、跨媒体协同搜索。
智能推荐:智能推荐需要知识图谱。主要体现在场景化推荐、冷启动阶段下的推荐、跨领域推荐。
此外还有自然人机交互决策支持(为决策提供深层、潜藏关系的发现和推理)。

知识图谱的分类

知识图谱中的知识可分为事实知识、概念知识、词汇知识、常识知识。
知识图谱的领域可分为行业知识图谱(DKG)和通用知识图谱(GKG),从范围上可以简单地认为DKG的范畴扩大后即为GKG。其区别主要体现在知识表示、知识获取和知识应用三个层面。如下表所示。

DKGGKG
知识表示广度
深度
粒度
知识获取质量要求苛刻
专家参与重度轻度
自动化程度
知识应用推理链条
应用复杂性复杂简单

GKG和DKG的关系密切,主要体现在:1)隐喻知识是通过隐喻或者类比从通用只是发展而来的。2)GKG和DKG相互支撑。一方面,GKG可以给DKG提供高质量的种子事实,GKG可以提供领域模式。DKG建立后也可以反哺GKG。
最后是关于一些典型的具有代表性的知识图谱,就不再赘述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值