摘要
最近使用Freebase知识库回答自然语言问题的平台被开发了出了,用于提高领域语言解析的技术水平。这个平台将问题映射成了复杂的语义表示,从而根据这些语义表示匹配知识库中可行的候选答案。这里我们将展示关系模型信息抽取技术,它比起web-scale corpus,能比这些复杂的方法提高大约34%。
介绍
基于知识库(KB)的问答系统(QA)在自然语言处理中有着悠久的历史,可以追溯到1960年代和1970年代,使用的系统包括Baseball和Lunar。由于缺乏知识资源、计算能力和对自然语言的理解能力,这些系统被限制在特定的封闭领域。最近的知识库例如Freebase、Yago2,在谷歌知识图、Facebook图搜索等商业知识库的陪伴下,已经成为更加实用的考虑回答广阔领域的问题的知识库。
AI社区倾向于首先通过浅层或深层的语义解析来理解问题的意图来解决这个问题。通常问题被转换为某种语义表示形式,然后映射到数据库查询。因此性能受原始语义解析的准确性和生成数据库查询的模板的限制。
信息抽取(IE)社区以不同的方式处理QA:首先执行相对粗糙的信息检索,从而筛选可能的候选答案集,然后才尝试执行更深入的分析。
语义解析的研究人员最近发布了基于Freebase超越封闭领域的QA(如:GeoQuery)。这是一个使得语义解析更加强大的值得称道的目标。在这里,我们提供了一个更加严格的IE基准。我们这些工作证明“传统”IE方法可以相对比报道中最先进的语义解析(Berant)F1增加34%
方法
我们把知识库看作一个相互链接的“主题”集合。当给出关于一个或多个主题的问题时,我们可以只选择涉及主题的“视图”,然后在与主题节点相关的几跳关系中检查每个相关的节点,以提取答案。我们称这样的视图为主题图,并假定可以在图中找到答案。我们的目标是最大限度地自动化答案提取过程,通过大规模地结合问题和主题图的区别特征。我们发现一个拥有百万特征的系统可以在数小时之内完成训练,从而产生直观的、人类可理解的特征。例如,给定一个问题:what money is used in ukraine。期望的回答类型是货币。
对知识库进行自然语言查询的一个挑战是,查询相对非正式。例如:谁背叛了名人A。Freebase中名人A的关系A.infidelity.participant或许存在答案,但背叛和知识图谱中的关系的联系并不明确。为了缓解这个问题,我们需要建立从ReVerb的谓词-参数三元组到Freebase关系三元组的映射。值得注意的是,为了提高精度,ReVerb已经删除了不那么频繁或可信的三元组,其覆盖范围不如它的文本源ClueWeb大。这里我们直接从ClueWeb挖掘关系映射,结果表明关系映射的精度有很大提高。
最后我们在Berant的真实数据集上测试了我们的系统。我们的方法实现了最先进的性能。
背景
基于知识库的 QA 面临两个突出的挑战:模型和数据。
模型的挑战包括找到问题的最佳意义表示,将其转换为查询并在知识库上执行查询。大多数研究通过各种中间表征的桥梁来达到这一目的,包括组合类语法,同步上下文无关语法,依赖树,string kernel,树式传感器。这些工作成功地展示了它们在QA 中的有效性,尽管它们中的大多数都需要手工标记的逻辑注释。最近的研究开始通过使用潜在意义表征来最小化这种直接监督或者远程监督。
相反,我们从 IE 的角度从知识库来解决QA问题:我们直接学习QA对的模式,由问题的依赖解析和候选答案的自由基结构来表示,而不使用中间的、通用的意义表示。
数据挑战更正式地被定义为本体或(文本)模式匹配,或者KB关系和NL文本之的(扩展)映射。在后者方面,Cai 和Yates(2013)以及 Berant等人(2013)在 ReVerb OpenlE系统的Freebase 关系和谓词-参数三元组之间应用了模式匹配和关系交集。Kwiatkowski 等人(2013)通过Wiktionary 单词标记扩展了他们的CCG词典,以实现更大的域独立性。Fader 等人(2013)通过将多个问题与维基答案生成的相同答案对齐来学习问题释义。他们成功的关键因素是拥有巨大的文本资源。通过直接从ClueWeb 中挖掘5TB的web数据,我们的工作将数据挑战推向了极限。
最后,知识库社区开发了其他不需要语义解析的QA方法。这些工作中的大多数是对由 RDF(资源描述框架)三元组表示的互连数据执行 SPARQL 查询,或者简单地执行三元组匹配.启发式和手工模板也常用(Chu-Carroll etal.,2012).我们建议用浅层问题分析从数据中学习有区别的特征. 最终的系统自动捕获 QA对的直观模式.
特征
我们的模型是受到人们如何寻找答案的直觉的启发。如果你问某人:贾斯汀·比伯兄弟的名字是什么,并让他们进入Freebase,那个人可能会首先确定这个问题是关于贾斯汀·比伯(或他的兄弟)的,他会理所当然的进入贾斯汀·比伯的Freebase页面,搜索他兄弟的名字。不幸的是,Freebase没有brother关系,而是sibling。因此,必须进行下一步推理,brother是男性的sibling。
问题特征
根据上面的例子,我们基于以下几点进行了寻找:
nsubj(what,name)和prep of(name,brother)的依赖关系表明在寻找一个名字信息
(name,brother)的依赖关系表示这个名字是一个brother的
依赖关系nn(brother,bieber)和事实:
bieber是一个人
人的兄弟是一个男人
我们提出了自己感兴趣的语言信息:
疑问词(qword),例如what、who、how many……
问题焦点(qfocus),一个线索,例如关键的名字,时间。为了保持简单,我们选择qword的依赖名词作为qfocus
疑问动词(qverb),如is、play、take。疑问动词可以很好的提示回答类型。
问题主题(qtopic),帮助我们找到相关Freebase页面。注意:一个问题可以有多个主题。
而后我们将依赖解析过程转换为了一个更通用的问题特征构建过程。
Freebase主题特征
对于给定的主题,我们通过选择与主题节点有几跳关系的节点,有选择地展开Freebase图,并形成主题图。除了传入和/或传出关系外,节点还具有属性:描述节点属性的字符串,例如,节点类型、性别或高度(用于人)。关系和属性之间的一个主要区别是,关系的两个参数都是节点,而属性只有一个参数是节点,另一个参数是字符串。关系的争论通常是相互关联的,例如,伦敦可以是贾斯汀·比伯的出生地,也可以是英国的首都。属性的参数是只“附加”到某些节点并且没有传出边的属性。
此外,我们还分析了 Freebase 关系如何映射到这个问题上。有些映射可以简单地检测为释义或词汇重叠。例如,父母关系有助于回答有关为人父母的问题。然而,大多数Freebase关系的构建方式在自然语言问题中并不常见。例如,对于常见的名人八卦问题,比如谁背叛了名人A,系统很难找到关系“名人。不忠”。如果在训练中没有观察到这种模式,则被试作为目标关系。
因此,假设有一个模型能够判断一个关系映射到原始问题的可能性有多大,我们就为每个节点的传入和传出关系添加额外的特性。具体地说,对于主题图中的每个关系rel,我们计算 P(rel|question)来对关系进行排序.最后,每个关系的排名(例如 top 1/2/5/10/100及以上)被用作特征,而不是纯粹的概率。我们接下来描述这样一个模型.
特征组合
为了提高问题特性的权重,获得更高的特征总数目,我们设置了如下组合方案:
qfocus=钱|node type=货币
qfocus=钱|node type=人(一个非常小的权重)
关系映射
在本节中,我们将描述建立Freebase关系和NL单词之间的“转换”表。
理论
目标是找出一个问题所提示的最有可能的关系。例如,在谁是乔治六世国王的父亲这个问题上,我们最可能寻找的亲属是 people.person.parents.更正式地说,给定一个单词向量w的问题Q,我们想找出使概率P(R|Q)最大化的关系R。为了计算简单,我们假设单词之间条件独立,并使用朴素贝叶斯(其中P(R)是一个先验概率):
同时我们观察到关系R=r1.r2.r3……例如关系people.person.parents是people和person和parents。我们再次假设子关系条件独立,并使用朴素贝叶斯
最后为了估计先验概率和条件概率,我们需要做数据收集和统计分析。
步骤
选取了ClubWeb096数据集,其包含了10种语言的10亿个网页(5TB)。FACC1,其包含了Clubweb语料库的Freebase注释,注释中包含了ClueWeb英文部分中Freebase实体的索引。通过这两个资源,对应每个Freebase关系,可以得到一个句子集合。从而训练句子中的单词和这个关系的关联,即P(W~|P)和P(W~~|P)。通过每个关系R的注释多少,可以估算出P(R)~和P(R)。
实验
这一节计算最终的F1。
实验使用了Berant等人收集的WEBQUESTIONS数据集。
该系统需要精准的定位问题所涉及的主题节点。将问题中所有命名实体使用Freebase搜索API搜索,返回一个相关主题列表,前两个结果包括是超过90%问题的黄金检索主题,前10个包括超过95%问题的主题。我们认为这是一个“足够好”的IR前端。
一旦获得主题我们通过API获取所有相关信息,得到Freebase主题图。而后将该主题图进行特征提取和分类。
通过CoreNLP套件进行问题特征和节点特征解析提取组合,通过对逻辑回归,perception和SVM等多种判别学习方法进行比较之后,发现逻辑回归效果最好。
得到了最终的F1:
Glod Retrieval总是把正确的主题节点排在第一位,这是一种理想情况的IR前端假设。在更实际的场景中,前10个包括超过95%问题的主题。为了保持简单,本测试只是从第一个主题节点中提取答案,最终F1为42%,与之前的最佳结果有1/3的改进。
结论
提出了一种基于结构化数据源(Freebase)的自动问答方法。我们的方法将问题特征Freebase所描述的答案模式相结合,在平衡和现实的 QA语料库上取得了最新的成果。为了弥补领域不匹配或过拟合的问题,我们利用 ClueWeb 挖掘知识库关系和自然语言文本之间的映射,并证明它有助于关系预测和答案提取。我们的方法使用相对轻的机械,但有良好的性能。我们希望这一结果能够为语义分析研究者建立一个新的基线,以此来衡量他们在加深语言理解和回答人类问题方面的进展。