搜索技术日新月异,如今它不再是搜索框中输入几个单词那么简单了。不仅输入方式多样化,并且还要在非常短的时间内给出一个精准而又全面的答案。目前,谷歌给出的解决方案就是——知识图谱(Knowledge Graph)。
知识图谱能做什么?
知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给我们更有意义的搜索结果。
比如,在上图中,用 Google 搜索自然语言处理,右侧会显示研究领域和相关概念。点击这些知识点,又可以深入了解;再比如,搜索一个人名时,右侧会给出此人的生平、背景、居住位置、作品等信息。
这就是知识图谱,它不再是单一的信息,而是一个多元的信息网络。
知识图谱的源头
知识图谱的雏形好几年前就已出现,一家名为 Metaweb 的小公司,将现实世界中实体(人或事)的各种数据信息存储在系统中,并在数据之间建立起联系,从而发展出有别于传统关键词搜索的技术。
谷歌认为这一系统很有发展潜力,于2010年收购了 Metaweb。那时 Metawab 已经存储了1200万个节点(Reference Point,相当于一个词条或者一个页面),谷歌收购后的两年中,大大加速这一进程,现已有超过5.7亿个节点并在它们之间建了180亿个有效连接(这可是一个相当大的数字,维基百科英文版也才有大约400万个节点)。
知识图谱的通用表示方法
本质上,知识图谱是一种揭示实体之间关系的语义网络 ,可以对现实世界的事物及其相互关系进行形式化地描述 。现在的知识图谱己被用来泛指各种大规模的知识库 。
三元组是知识图谱的一种通用表示方式,即 G=(E,R,S),其中 E=e1,e2,…,e|E| 是知识库中的实体集合,共包含 |E| 种不同实体,R=r1,r2,…,r|E| 是知识库中的关系集合,共包含 |R| 种不同关系,S⊆E×R×E 代表知识库中的三元组集合。
三元组的基本形式主要包括实体 A、关系、实体 B 和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等&