NLP第19课:知识挖掘与知识图谱概述

搜索技术日新月异,如今它不再是搜索框中输入几个单词那么简单了。不仅输入方式多样化,并且还要在非常短的时间内给出一个精准而又全面的答案。目前,谷歌给出的解决方案就是——知识图谱(Knowledge Graph)。


v2-de084e7c00406cdc894613a14868736d_b.jpg


知识图谱能做什么?

知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给我们更有意义的搜索结果。

比如,在上图中,用 Google 搜索自然语言处理,右侧会显示研究领域和相关概念。点击这些知识点,又可以深入了解;再比如,搜索一个人名时,右侧会给出此人的生平、背景、居住位置、作品等信息。

这就是知识图谱,它不再是单一的信息,而是一个多元的信息网络。

知识图谱的源头

知识图谱的雏形好几年前就已出现,一家名为 Metaweb 的小公司,将现实世界中实体(人或事)的各种数据信息存储在系统中,并在数据之间建立起联系,从而发展出有别于传统关键词搜索的技术。


v2-c67f60df13ae8a94b4ede89dfccaabdf_b.jpg


谷歌认为这一系统很有发展潜力,于2010年收购了 Metaweb。那时 Metawab 已经存储了1200万个节点(Reference Point,相当于一个词条或者一个页面),谷歌收购后的两年中,大大加速这一进程,现已有超过5.7亿个节点并在它们之间建了180亿个有效连接(这可是一个相当大的数字,维基百科英文版也才有大约400万个节点)。

知识图谱的通用表示方法

本质上,知识图谱是一种揭示实体之间关系的语义网络 ,可以对现实世界的事物及其相互关系进行形式化地描述 。现在的知识图谱己被用来泛指各种大规模的知识库 。

三元组是知识图谱的一种通用表示方式,即 G=(E,R,S),其中 E=e1,e2,…,e|E| 是知识库中的实体集合,共包含 |E| 种不同实体,R=r1,r2,…,r|E| 是知识库中的关系集合,共包含 |R| 种不同关系,S⊆E×R×E 代表知识库中的三元组集合。

三元组的基本形式主要包括实体 A、关系、实体 B 和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等&

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值