How Did Watson Answer? —— Implicit Relationships

一、摘要

为了发现和衡量问题中的隐含关联、模糊关系,Watson采取了一种称为传播激活(Spreading-Activation)的方法。

二、概述

例如“How old was the youngest U.S. president when he took office?”这样的问题被称为共同联接(common-bond)问题,例如“On hearing of the discovery of George Mallory’s body, this explorer told reporters he still thinks he was first.”这样的问题被称为“联接缺失(miss-linking)”问题。对于共同联接问题,传播激活将在每个问题的实体中进行,以此发现与所有实体最相关、最显著的概念作为候选答案;对于联接缺失问题,传播激活用来对发现的缺失联接和候选答案之间的关联进行衡量。

三、概念拓展的传播激活

传播激活的基于这样的想法:语义网络中与已经激活的概念通过制定方式相连的概念也将被激活。但Watson利用的不仅是人工生成的关联,而是基于在大规模语料库中发现的频繁项集。当然,在语义网络中搜索的时候需要两个限制搜索的参数——单层搜索规模 f 、搜索深度d

(一)利用n-gram语料库

相比于直接计算频繁项集,使用n-gram将会更高效而准确。在Watson中使用5-gram模型,实现时基于Lucene。给定一个词汇t,会返回两个结果——最常现的含有t的5-gram,归一化的谷歌距离(NGD, Normalized Google Distance)。

(二)利用PRISMATIC知识库

使用PRISMATIC知识库时,我们只会用到那些语法,用以得到两个概念的共现频率。但与n-gram计算词目共现不同的是,语法帧计算的是有语法共现。在PRISMATIC中只使用了三种语法关系——SVO(Subject-Verb-Object)、SVPO(Subject-Verb-Preposition-Object)、NPO(Noun-Preposition-Object)。

(三)利用Wikipedia链接

第三种进行传播激活的方式是使用Wikipedia的元数据,注意,这里不是使用Wikipedia的正文数据。在Wikipedia的数据中存在这样的特点,链接目标文档的标题往往与源文档的标题有着密切的联系。判断关联程度的两个标准分别是——锚文本与标题的共现频率、目标文档标题的规范程度。

四、共同联接问题中的应用

共同联接问题指的是需要在多个实体间找他们的共同联系的问题。在这些问题中,有一个共同的特点就是答案和所给的多个实体在语义上是十分接近的。解决这种问题,分为两步,首先,找出每一个实体相关联的所有概念,然后根据概念与实体的关联程度进行排序。

(一)共同联接中的候选生成

为了最大化召回率,Watson首先单独找出与任何一个实体相关的所有概念,然后再将这些概念的并集作为候选集。实验之后,得到的能最好平衡两者关系的参数是, f=50,d=1
对于大部分问题来说,共同联接可以在词典序的邻近中发现。但是,对于复数形式的答案,这种共同联接的方法缺无法生效。

(二)共同联接中的答案评分

对于共同联接的候选答案,会根据答案与实体的语义关系来给出一个评分。那些没有与实体共现过得答案在平滑过程中会有一个比较低的初始得分。由于每个实体相关概念的交集有时会漏掉一些重要的答案候选,所以选择使用并集来作为答案候选集。

五、链接缺失问题中的应用

链接缺失问题是指那些在问题中明确或模糊地提到了一个实体(名字并没有出现在题干中),而且这个实体对找出答案有极大促进作用的问题。(笔者个人认为其实就是一种2阶推理问题,有一个名词是以从句的形式给出)
解决的大致流程是:1)根据核心概念的语义关系找出缺失链接,并且补全实体内容;2)再一次调用搜索过程,重新生成候选答案;3)对新候选集进行评分和排序。

(一)辨别缺失链接

一个可能的缺失链接应该满足两个条件,既与问题中的概念高度相关,又不是可能的正确答案。所以,首先要对所有的候选进行相关度评价,可以由多种组件完成,比如搜索排序组件、文本证据评分等等。而后,检测那些高度相关的候选是不是能够被确定为非正确答案。一个高度相关的候选答案,如何被确定为不是正确答案呢?主要依据它的类型与答案所要求的不匹配。

(二)利用缺失链接生成候选

将原问题中缺失链接替换为对应的实体,再利用候选生成组件检索一次,重新生成候选集。

(三)缺失链接中的答案评分

不同于上一步中将缺失链接替换为对应实体,在评分时,会比较候选答案与题目中概念的语义关联是不是缺失链接。由于缺失链接只有一个,所以直接比较缺失链接与候选答案的语义关联程度即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值