How Did Watson Answer?

一、      背景介绍

Watson是IBM公司为参加《Jeopardy!》(中文译名《危险游戏!》)而开发的QA系统。北京时间2011年2月17日,由IBM和美国德克萨斯大学联合研制的超级电脑“沃森”(Watson)在美国最受欢迎的智力竞猜电视节目《Jeopardy!》中击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《Jeopardy!》节目新的王者。

二、      系统高级架构


该图来自《Building Watson: An Overview of the DeepQA Project》

三、      Watson答题流程

(一) 内容获取

通过多种途径获取非结构化、半结构化、结构化的文本知识,包括使用Wikipedia、百科全书、字典、新闻、词表等等。大致步骤可以总结为:(1)通过“种子”文档检索互联网相关文章,(2)抽取其中自相关的片段,(3)按照片段中信息与“种子”的相关程度进行排序,(4)将相关度较高的片段合并到语料库中。

(二) 问题分析

这是系统在运行过程中的第一步,其中几个主要步骤有:

问题分类——将问题分类,重点关注问题是否需要特殊操作。

重点与LAT抽取——LAT全称Lexical Answer Type,是指题干中指明答案类型的文本,同时将问题的“题眼”抽取出来。

关系抽取——抽取题干中的关系。这是NLP一个很广泛的问题。

分解问题——利用基于规则的深度解析和统计分类的方法决定是否将问题分解为数个子问题。若分解出来子问题,则可以并行处理子问题。

注意:以上各步骤需要严格按照顺序执行,因为前一步的结果是下一步的输入。

(三) 生成候选集

1.     初级搜索

利用问题分析的结果,搜索出尽量多的“答案向”的内容。

2.     生成候选答案

通过对初级搜索结果的简单分析,生成答案的候选集(大小约为几百个)。

这一步直接决定能否答题。

(四) 软过滤

软过滤是检测答案是不是LAT的一种(只是一种软过滤手段),如果不是,则该答案交由“假设评分”处理,如果是,直接将该答案送至“合成排名”。

也就是,通过了软过滤的答案还要再处理一下才能使用,而没用通过的则可以直接使用。

(五) 假设评分

通过了软过滤的候选答案将在这一步中搜寻证据来支持该候选是真实的答案。简单来说,这一步分为两步执行:

证据检索——在系统中搜寻与候选答案相关的支持证据。

评分——通过深度的内容分析,来对候选答案进行评分。具体技术手段有很多,如最大正向匹配、最长公共子串、逻辑表示等等。

(六) 合并排名

在上百个候选答案中挑选出证据支持度最大的那些,并且评估它们的可信度(即其为正确答案的可能性)。

(七) 答案生成

将实质相同而表述方式不同的候选答案合并为同一个答案,以解决在最终排名与可信度评估中可能会出现的正确答案由多种方式表示而评分均较低的情况。

(八) 最终排名与可信度评估

利用多种模型,可以对合并完的候选答案进行排名与可信度评估。注意,之前的所有排名与评估并没有考虑“一种答案的多个表示方式”,而这里才是对多个可能的最终答案的评估。

(九) 最终章

得到了答案之后,Watson还要通过博弈论来计算答这道题的收益,所以,还要通过博弈论来决定是否作答。一旦决定作答,Watson将给出在“最终排名与可信度评估”中可信度最大的答案。

 

后记:因为时间有些紧张,博文中都是一些罗列性的东西,等有时间的时候,我再重新整理一下。后面慢慢会写出每一步的详细阐述,欢迎关注。

另外,由于Watson是一个工程性的项目,所以,在这些文章中,讲述到的底层算法及其实现可能不多。但本人在做的另一个项目与Watson颇为相似,如果有机会的话,我会把自己写的一些Watson中的算法添加到对应章节中。


  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值