“
崔万云
复旦大学知识工场实验室博士生
研究方向为问答系统和知识图谱
第一章 绪论
第 1 节 问答系统背景介绍
2011 年 10 月 14 日,苹果公司在其 iPhone 4S 发布会上隆重推出新一代智能个人助理 Siri。Siri 通过自然语言的交互形式实现问答、结果推荐、手机操作等功能,并集成进 iOS 5 及之后版本。2012 年 7 月 9 日,谷歌发布智能个人助理 Google Now,通过自然语言交互的方式提供页面搜索、自动指令等功能。2014 年 4 月 2 日,微软发布同类产品 Cortana,2014 年 10 月,亚马逊发布同类产品 Alexa。在此之前的 2011 年 9 月,由 IBM 研发的 Watson 机器人参加智力问答节目“Jeopardy!”,并战胜该节目的前冠军 Brad Rut- ter 和 Ken Jennings,豪取一百万美金大奖。
问答系统(Question Answering system, QA system)是用来回答人提出的自然语言问题的系统。问答系统的实现涉及到自然语言处理、信息检索、数据挖掘等交叉性领域。问答系统的历史最早可以追溯到 1960 年代的 BASEBALL [40]和 1970 年代的 LUNAR [101]。自那时起,有大量的问答系统涌现 [107, 22]。
智能时代,人类期望有更简单自然的方式与机器进行交互。因此以自然语言为交互方式的智能机器人广受青睐,受到各大 IT 厂家追捧。而其底层核心技术之一,即为自然语言问答系统。问答系统提供了自然语言形式的人与产品交互,降低了产品使用门槛,大幅提成用户体验。同时,问答系统可以帮助企业极大节省呼叫中心的投入。这些应用已经印证了问答系统的商业价值和社会价值。
问答系统的应用仍然具有新的潜力。人对于互联网的核心诉求之一是知识获取。从更长的时间窗口看,问答系统及聊天机器人,有着成为互联网知识获取新入口的优势。搜索引擎依然是现阶段最重要的互联网入口,也缔造了谷歌、百度等巨头企业。然而,基于关键字的搜索方式,缺乏语义理解,存在着与人的自然需求表达的隔阂,同时其返回结果需要人消耗大量时间剔除无意义的信息。随着人工智能、自然语言理解技术的进步,当问答系统足够智能,使人类的监督最小的时候,人就可以用问答从互联网完成知识获取。
问答系统的研究,是语义计算和自然语言处理的综合性应用。它包含了多种典型自然语言处理的基本模型,例如实体识别、短文本理解、语义匹配等。传统的单一模型研究往往仅关注某一具体问题的效果,而忽视在系统整体中的实用性。问答系统由于其复杂性,需要不同模型间的联通,才能带来综合性、实用性的技术突破。因此问答系统的研究为不同语义理解模型的整合提供了应用出口,为不同模型的关联分析、数据共享、参数共享等提出了实际需求,为多个自然语言语义理解技术模型的整体突破带来了技术愿景。
另一方面,问答系统研究的核心在于问题语义和知识语义的理解和相似度计算。这是计算机理解人类语言和知识表达的关联,跨越语义鸿沟的关键。这条横亘在计算机面前的语义鸿沟,其关键是计算机和人类在语义表达方式上的不同。人类倾向于使用多样化、非结构化的表达来描述问题和知识,而计算机则偏爱唯一化、结构化的知识。问答系统的研究,直接作用于缩短和跨越这一语义鸿沟,将多样而模糊的问题语义,映射到具体而唯一的计算机知识库中。
优秀的问答系统有两个关键点:精确的问题理解和高质量的知识来源。近年来随着大数据的发展,这两点纷纷迎来了数据层面的发展契机。
问题理解由于问题的多样性和复杂性,很难人工制定一套规则完成问题理解。因此从数据中进行问题语义学习是必要的。社交类问答网站的兴起,包括Yahoo! Answers,Stack Overflow,百度知道等。由用户在上面进行提问和回答。这些网站包含了大量的问答对数据集,这成为了问题理解的优质语料。海量的问答语料为问题理解的学习提供了数据基础。
知识来源由于知识表述的多样性,以及知识关联的复杂性,需要优质而大量的知识来源。近年来,一批高准确率、海量规模的知识图谱涌现,为问答系统提供了结构化、关联化的知识来源。这也为高效的问题回答提供了知识基础。
在数据发展的契机下,如何设定恰当模型学习并使用这一批数据就显得尤为重要。传统的基于规则的模型 [72]无法合理利用海量语料;基于关键词的模型 [98] 则没有进行深入的语义理解。而一些复杂的图模型等 [116, 112],则由于时间复杂度很难直接应用在如此大规模的语料中。本文的研究,即旨在寻求一种优秀的、系统性的问答系统表示和学习模型,并进行成功应用。
1.1. 知识图谱简介
2012 年 5 月份,Google 花重金收购 Metaweb 公司,并向外界正式发布其知识图谱(knowledge graph)。自此,知识图谱正式走入公众视野。开放领域大规模知识图谱纷纷出现,包括 NELL [15],Freebase [10],Dbpedia [6],Probase [103]等。
知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱的出现是信息技术发展、时代发展的必然结果。语义的本质是关联。只有基于语义的数据互联才能发挥数据集成的非线性效应,才能获取大数据的特有语义。在这一背景下,数据互联(Linked Data)成为了一种运动,在全世界范围内方兴未艾。而数据互联的出现从深层次上来说是由时代精神所决定的。2011 年的 Science 曾经以“互联” 为题,出版专刊阐述了一个基本观点:我们身处在一个“互联”的时代。各种网络,诸如互联网、物联网、社会网络、语义网络、生物网络等等,将各类实体、概念加以互联。网络已经成为刻画复杂性的基本形态。管理、理解和使用各种网络数据,包括知识图谱,已经成为征服复杂性的基本手段。
图 1.1:一个 RDF 知识图谱示例。 这里的“dob”和“pob”分别表示“出生日期”和“出生地”。注意到“spouse”关系是由多条边表示的name - marriage - person - name
大部分这样的知识图谱采用了 RDF 作为数据格式,它们包含数以百万记甚至亿记的 SPO 三元组(Sub ject,Predicate,Object 分别表示主语,属性,宾语)。图1.1 是一个奥巴马及其相关实体构成的知识图谱的示例。可以看到,知识图谱具有明显格式化特征,其值往往是一个实体名字或者一个数字、一个日期。这保证了基于知识图谱的问答系统的回答简洁性。另一方面,不同于基于信息检索的问答系统需要考虑数据真实性的问题,知识图谱的高数据质量保证了答案的准确性。
1.2. 知识图谱在问答系统上的数据优势
问答系统有多种可能的数据来源。传统的数据来源包括网页文档、搜索引擎、百科描述、问答社区等。无一例外,这些数据来源都是非结构化的纯文本数据。有大量基于信息检索的方法致力于研究从纯文本数据中进行知识抽取和回答。而近年来,基于知识图谱的问答系统则成为学术界和工业界的研究和应用热点方向。相较于纯文本,知识图谱在问答系统中具有以下优势。这些优势都促使本文使用知识图谱来作为问答系统的知识来源。
数据关联度-语义理解智能化程度问题语义理解程度是问答系统的核心指标。对于纯文本数据,语义理解往往建立在问句与文本句子的相似度计算。然而语义理解和知识的本质在于关联,这种一对一的相似度计算忽视了数据关联。在知识图谱中,所有知识点被具有语义信息的边所关联。从问句到知识图谱的知识点的匹配关联过程中,可以用到大量其关联结点的关联信息。这种关联信息无疑更为智能化的语义理解提供了条件。
数据精度-回答准确率知识图谱的知识来自专业人士标注,或者专业数据库的格式化抓取,这保证了数据的高准确率。而纯文本中,由于同类知识容易在文本中多次提及,会导致数据不一致的现象,降低了其准确率。
数据结构化-检索效率知识图谱的结构化组织形式,为计算机的快速知识检索提供了格式支持。计算机可以利用结构化语言如 SQL、SPARQL 等进行精确知识定位。而对于纯文本的知识定位,则往往包含了倒排表等数据结构,需要用到多个关键词的倒排表的综合排名,效率较低。
1.3. 基于知识图谱的问答系统工作方式
通过知识图谱为知识源回答问题时,一个问题对应于知识图谱的一个子结构。所以其问答过程的核心在于将自然语言问题映射为知识图谱上的结构化查询。例如对于图 1.1 中的知识图谱,表 1.1 展示了一些它可以回答的问题,以及对应的子结构。
表 1.1:自然语言问题及其在知识图谱中的属性对应。
基于知识