作者:许茜,漆桂林,王然,殷春锁,丁自民
知识图谱主要可以分为两大类,即通用知识图谱和行业知识图谱。大众熟知的知识库大多包含通用领域知识,如DBpedia,yago,freebase等。其特点是范围广、质量高,但在特定领域不够深入。
人物图谱是以“人物”实体和人物之间的社会关系为核心构建的知识图谱。根据“六度分离理论”,在人际交往中,任意两个陌生人最多只要通过五个朋友就能建立联系。从某种意义上来说,世界上所有人都可以通过个人的关系网以特殊的方式联系起来[1]。比如,周恩来总理和鲁迅先生看似毫无关系的两个人,实际上,二者均是周敦颐的后人。
人是社会的基础,也是社会的中心。可靠性高、内容丰富的人物百科图谱可以更清晰的展示人物介绍和人物之间关联性,同时也能在应用于智能搜索、智能问答、个性化推荐时提供更为可靠详细的知识。
一、相关工作
目前较为成熟的人物知识图谱包括微软人立方关系搜索以及搜狗人物知识图谱等,本部分将简要介绍一下这两种知识图谱并分析他们的优点与不足之处以及本项目在这方面的改进工作。
微软人立方关系搜索是由微软亚洲研究院研发的社会化计算实验系统。人立方,即“众”,其设计理念是“聚集大众的力量,实现互联网的知识整理”。用户的参与和互动是人立方的重点,通过用户与人立方的互动,基于超过十多亿个中文网页中的各种中文短语(如人名、地名、机构名等),动态的构建出一张互联网人物关系图谱。
用户在使用人立方时,在搜索框中输入关键词,人立方将以搜索的关键字为核心,显示普通的网页结果、相关的资讯结果、关键字涉及的简介(比如搜张朝阳,出来的就是完整的张朝阳简历)、关系,效果如图1所示。
图1:张朝阳人物图谱
微软人立方关系搜索的实用之处在于通过获取互联网上的各类信息分析提取人物关系并根据实时热点等信息动态生成人物关系网络,但是互联网上的海量的信息很难做到保证信息来源的可靠性,因此人物关系的真实性很难保证。
搜狗人物知识图谱应用目的为优化用户的搜索体验(见图2)。这同时带来了问题,由于其面向用户的应用性,所以在实体构造的时候仅选取知名度较高的人物带来了忽视其他同名人物的问题。
图2:郭德纲人物图谱
下面介绍我们提出的人物知识图谱构建的方法,该方法着力解决现有知识图谱存在的不足之处,其一在于数据来源的可靠性,项目基于来源较为可靠的数据来源(百科)并对数据来源进行显性标注,其二在于根据百科特性解决同名人物问题,将同名词条下的不同人物赋予不同id[2],并根据百科词条完整的文本部分进行一定的属性和关系补全,进一步提高了知识图谱的质量。
二、图谱的知识获取
此部分主要描述的是百科人物知识初始数据的获取与处理,下文主要以百度百科下的体育人物为例进行技术介绍。
2.1 源网页的解析与爬取
本项