How Did Watson Answer? —— Factoid Question Decomposition

一、      摘要

前面曾经提过,Watson能够将题型进行分类,进而选择不同的答题策略。这篇文章就介绍Watson如何分解处理事实性问题。

宽泛地讲,一个可分解的问题可以被分为两种子问题——并行的、嵌套的。并行的子问题主要包括那些与答案相关的相互独立的事实;嵌套的子问题则包括一个能够连接实体和正确答案的独立事实,以及对应的那个与正确答案相关的实体。啰嗦两句,这里的嵌套的问题还是有些讲究的,不光是要找出来那个与正解相关的实体,还要找到这个实体和答案之间的关系。

为了这两种问题,主要由三个部分组成——一系列分解规则、问题重写(question-rewriting)组件、候选重排(candidatere-ranker)组件。

二、      问题分解与生成框架

框架高级结构见下图。


(一) 分解识别器

这部分负责分析输入的问题,找出来其中那些能分解出来的显著的词典-语义(lexico-syntactic)线索集合。

(二) 问题重写器

将关键的文本信息加入到分解出来的子问题中,重写一遍子问题

(三) 底层QA系统

没有配置上分解器的QA系统,直接给出事实性问题的答案候选集。当然,还有一个要求,出了给出候选答案,还要相应地给出每个答案的置信度。

(四) 候选重排器

将子问题生成的答案进行整合,生成原始问题的答案候选集,并且根据置信度对这些答案进行排名。

三、      并行分解问题解决方案

解决并行可分解问题的算法主要包括三个部分:(1)用基于语法的模式匹配来发现独立的子问题,(2)重写子问题,插入关键文本信息,(3)从独立事实中生成答案。

(一) 识别独立子问题

主要使用三种模式来匹配检测是否是能够并行处理的独立子问题:

1.     独立子树

根据语法分析在问题的PAS(Predicate-ArgumentStructure)中找出这些能够被“broken off”的字句。

2.     组合单元

组合单元在问题的PAS中结合一些不同的部分来组成子问题。当然,一般是定语从句与所描述的宾语或主语的结合。

3.     有限定词的片段

如果题眼的修饰语是有关的限定词,比如说第一、文艺的、最西边的等,这些片段就能够作为一个独立的子问题来进行处理。

(二) 重写子问题

通过向子问题中插入文本信息来重写分解出来的子问题。主要是要解决自问的候选集过于宽泛的问题。一般情况下,需要对子问题的答案域作以限定,同时,将其他子问题的题眼加入到当前的子问题中(用圆括号括起来放在题头)。

(三) 多个子问题共同生成答案

对于原始问题候选答案的评分,采用机器学习模型评估一下特性:

l 一个表达候选是不是top answer的二元值

l 候选答案相对于原题的置信度

l 在候选答案前十个中有出现的子问题数量

l 并行分解过程中使用方法的模式值

四、      嵌套分解问题解决方案

概括来说,首先解决内层问题,找到丢失的答案(“missing link”answer),然后把它插入到外层问题中,得到一个新的答案。最后,与原始问题的答案进行对比,决定排名。

(一) 检测内层问题

通过问题的语法分析,找到限定词所限定的名词词组,以此作为内层问题。因为,IBM的大神们真的有发现规律的眼睛,他们发现这一类的名词词组往往都是指向命名实体的。解释一下什么叫“missing link”,就是那些没有出现在题干中,却又跟正确答案强烈相关的实体。这种题型是《Jeopardy!》经常出的一类题,很像是把填空题的空替换成了this。

(二) 重写内层问题

这个当时看得我是一头雾水啊,重写问题就是在刚才的内层问题的名词词组前面对应地加上this或者a之类的,为啥呢,因为这样子一来,this或者a就能被识别为子问题的题眼(focus)。

(三) 将子问题答案插入到外层问题

解决了子问题,或者说得出子问题候选集之后,就可以用答案直接替换原来问题中的子问题,得到新的语句。这里我就不举栗子了。

(四) 启发式重排名策略

以内层问题答案的评分与外层问题答案的乘积作为整体答案的评分。我实在无力多说这件事了……反正就是这么简单。

 

 

后记:看完这一章的内容的时候,我陷入了一种不知道说什么好的状态。虽然我知道Watson效果做得很好,可是,针对Jeopardy!这个节目本身做的策略太多,都是模式匹配。与我一开始的设定,牛逼程度不在一个层次上。其实,归根到底,问题的关键还是语义分析,还是推理。路在何方呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值