从零构建知识图谱--第1章知识图谱概览

一、知识图谱概念

1.语义网络

语义网络是一种表示网络中概念之间语义关系的知识库,通常是一个有向或无向图,由表示概念的结点和表示概念之间语义关系的边组成。

2.知识图谱

知识:人类在实践中认识客观世界(包括人类本身)的成果,包括事实、信息、描述以及在教育和实践中获得的技能。(参考Rowley的DIKW体系)

知识图谱:是一种具有图结构的知识库,采用图的形式将知识表示出来。其结点通过一些边连接在一起,可以看作一类语义网络。例如Google就是通过一个强大的知识图谱(Freebase知识库),提高了用户的搜索体验。

三元组:一种常用的基于符号的知识表示方式--资源描述框架(Resource Description Framework,RDF),它把知识表示为一个包含主语(Subject)、谓语(Predicate)和宾语(Object)的三元组<S,P,O>。例如,<姚明,国籍,中国>表示姚明的国籍是中国,其中“姚明”和“中国”是两个结点,而结点之间的关系是“国籍”。

3.知识图谱概念的演化历程

1960-语义网络:一种基于图的数据结构,是一种知识的表示手段,可以很方便地将自然语言转化为图来表示和存储,并应用在自然语言处理问题上,如机器翻译、问答等。

1980-本体论:研究人员将哲学概念本体(Ontology)引入计算机领域,作为“概念和关系的形式化描述”。

1989-web:“以链接为中心”,“基于图的方式”相互关联。

1998-语义网:一种数据互连的语义网络,基于图和链接的组织方式,但结点不再是网页,而是实体,通过为全球信息网上的文档添加“元数据”,让计算机能够轻松理解网页中的语义信息,从而使整个互联网成为一个通用的信息交换媒介。

2006-链接数据:进一步强调了数据之间的链接,而不仅仅是文本的数据化。

4.不同角度了解构建知识图谱

知识图谱的概念是和web、自然语言处理(NLP)、知识表示(KR)、数据库(DB)、人工智能(AI)等密切相关的。

从web的角度:构建知识图谱需要建立数据之间的语义链接、并支持语义搜索。

从NLP的角度:构建知识图谱需要了解如何从非结构化的文本里抽取语义和结构化数据。

从KR的角度:构建知识图谱需要了解如何利用计算机符号来表示和处理知识。

从DB的角度:构建知识图谱需要了解使用何种方式来存储知识。

从AI的角度:构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机器翻译问题的解决。

5.知识图谱有关概念

实体:对应一个语义本体,例如“姚明”,“中国”。

属性:描述一类实体的特性,例如“身高”:姚明的身高是229厘米。

关系:对应语义本体之间的关系,将实体连接起来,例如“国籍”:姚明的国籍是中国。

二、知识图谱模式

结点表示语义实体或概念,二者应该如何区分?

本体:由概念组成的体系称为本体,本体的表达能力比模式强,且包含各种规则。本体强调了概念之间的相互关系,描述了知识图谱的模式,而知识图谱是在本体的基础上增加了更丰富的实体信息。通俗来讲,模式是骨架,而知识图谱是血肉。

模式:模式这个词汇来源于数据库领域,可视为一个轻量级的本体。

人工智能三个代表学派:符号学派强调模拟人的心智、连接学派强调模拟脑的结构、行为学派强调模拟人的行为

三、知识图谱技术架构

1.知识图谱的构建与计算应考虑的内容

①需要考虑 如何结合文本、多媒体、半结构化、结构化知识、服务或API,以及时态知识等的统一知识表示。

②还需要进一步考虑如何结合结构化(如关系型数据库)、半结构化(HTML或XML)和非结构化(文本、图像等)多源异质数据源来分别构建通用事实类(各种领域相关实体知识)、常识类、用户个人记忆类和服务任务类知识库等。

③为了得到融合的图谱,我们除了考虑离线的多源异构的知识融合,还需要额外考虑服务任务类动态知识的对象绑定。

④最后还需要考虑知识谱图的存储,知识是互联、庞大的,且联系是数据的本质所在,传统数据库对于数据联系的表现比较差,所以在知识图谱的存储上,图数据库比较灵活,尤其涉及多跳关联查询时(例如姚明的妻子的国籍是什么),图数据库的效率会远比关系型数据库高。

2.针对不同类型的知识和数据的不同构建技术

针对结构化数据:知识映射;

针对半结构化知识:包装器(Wrapper)

针对非结构化知识:文本挖掘(充分利用web和大规模语料库的冗余信息来发现隐含的模式)、自然语言处理(在开发或确定的Schema下做各种知识抽取)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
构建知识图谱的过程可以分为以下几个步骤: 1. 收集数据:从多个数据源中获取相关数据。可以通过网络爬虫、API接口等方式收集数据。数据可以包括文本、图像、音频、视频等多种形式。 2. 数据清洗:对收集到的数据进行清洗、过滤和去重。清洗数据可以帮助提高数据的质量,减少干扰因素对知识图谱的影响。 3. 实体识别与链接:通过自然语言处理技术,识别文本中的实体,并为其添加合适的标签和属性。同时,通过实体间的关系,将实体进行链接,形成一个实体网络。 4. 知识抽取:通过文本挖掘和信息提取技术,从文本中提取出关键信息和知识。可以利用命名实体识别、关系抽取等方法,将文本信息转换为结构化的数据。 5. 知识表示:将提取到的知识表示成一种可计算和可查询的形式。可以使用图数据库或三元组表示方法,将实体、属性和关系进行组织和存储。 6. 知识推理:基于已有的知识,进行推理和推断,发现实体之间的隐藏关系和规律。可以利用逻辑推理、规则推理等方法,从已有的知识中获得新的知识。 7. 可视化展示:将构建好的知识图谱进行可视化展示,使得用户可以更直观地浏览和查询知识。可以使用图形界面工具或图形库,将知识图谱呈现为可交互的图形界面或图表。 综上所述,从零开始构建知识图谱需要进行数据收集、清洗、实体识别与链接、知识抽取、知识表示、知识推理和可视化展示等步骤。通过这些步骤可以构建出一个完整的知识图谱,并为用户提供方便的查询和浏览方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值