2012年5月16日,谷歌首次正式提出了知识图谱的概念,希望利用结构化知识,来增强搜索引擎,提高搜索质量和用户体验。
也就是说,从诞生之日起,知识图谱就和搜索引擎密不可分。
随着大数据时代的到来和人工智能技术的进步,知识图谱的应用边界被逐渐拓宽,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务。目前知识图谱已成为人工智能领域的重要分支,在搜索、自然语言处理、智能助手等领域发挥着重要作用。
爱奇艺搜索团队早在2015年就开始着手搭建自己的知识图谱库——奇搜知识图谱库。本文将讲述奇搜知识图谱的构建过程,及其在爱奇艺搜索、NLP服务中的具体应用。
01
什么是知识图谱?
谷歌发布的文档的描述中,知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。
在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物比如人、地名等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
现实世界中的很多场景非常适合用知识图谱来表达。 比如一个社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。人和人之间的关系可以是“朋友”,也可以是“同事”关系。人和公司之间的关系可以是“现任职”或者“曾任职”的关系。
02
奇搜知识图谱的构建
爱奇艺搜索(奇搜)作为国内最大的视频搜索引擎之一,致力于为用户提供优质的全网视频、娱乐领域的搜索服务。
当传统的文本检索搜索方式不能满足给用户提供更为精准和智能的搜索体验的目标时,为了丰富用户视频娱乐搜索结果、为了对用户搜索意图实现精准理解与直观回答,奇搜团队努力完善对视频内容的理解、对用户意图的理解,并在过程中构建了以视频领域为主的知识图谱库。
在经历几个版本的迭代后,目前的奇搜知识图谱的构建流程主要分为知识表示与建模、知识获取、知识融合、知识存储、知识应用(知识查询与推理)几个步骤和模块,下面我们一一予以介绍。
2.1 知识表示和建模
构建知识图谱之前,首先需要确认知识的建模表示方式。目前主要的知识建模方式有两种:
(1)先为知识图谱设计数据模式(schema),再依据设计好的数据模式进行有针对性的数据抽取,这是自顶向下的数据建模方法;
(2)先进行数据的收集和整理,再根据数据内容总结、归纳其特点,提炼框架,逐步形成确定的数据模式,这是自底向上的数据建模方法。
爱奇艺奇搜知识图谱的构建采用的是自顶向下的建模方式,图谱Schema定义基于RDF三元组、以及RDFS的规则。
RDF(Resource Description Framework),即资源描述框架,实际上是一种数据模型,由一系列的陈述即“对象-属性-值”三元组组成。
Triples:[S, P, O]
RDF用Subject,Predicate,Object三元组与原陈述的三个部分联系起来。