比较常用的一些QA技术
parsing
question classification
question decomposition
automatic source acquisition and evaluation
entity and relation detection
logical form generation
knowledge representation and reasoning
对计算出的答案到底有多少confidence,在计算的每一步中都要有体现
confidence threshold,只有对问题的confidence超过这个threshold才选择回答,所以可以想象
在被选择回答的问题中,最后的precision应该是比较高的:
100%回答只有40%的precision,40%回答可以达到100%precision, 60回答时可以得到66%precision
这一点才产品级很有用,不要给用户无用的答案,不知为不知,是智也
对问题进行分解,对分解的部分回答,然后综合部分答案得到最后答案,并行问题结构,嵌套问题结构
Question中可能含有一些能代表answer类型的word,这些是十分重要的word,这些word可以帮助
我们确定answer可能会出现在什么环境下,如果没有明确的关键word,我们也应当能够推演出它,应为
answer一定是以某种类型存在的
简单的用key word query去search text也能表现的不错,说明如果能分析出key word,然后做search,在search
结果中做总结是一个不错的做法。
DeepQA强调并行可扩展的体系结构,什么意思?就是说我们不是依赖于某一个特定模块的特定方法,而是给每一个模块一个confidence,然后能够将不同方法产生的结果综合起来,这样产生更加可靠的结果
data corpus 应该可以在seed document的基础上进行自动扩展,从web中抓取有用的信息
Question Analysis的工作包括各种技术的综合应用,包括:
shallow parses, deep parses, logical forms, semantic role labels, coreference, relations,
named entities, and so on.
Question classification很有帮助,a math question? a definition question? or others?
LAT detection,就是识别出question的focus,这个focus可以用来确定answer的类型
更进一步的解释就是:The focus of the question is the part of the question that, if replaced by
the answer, makes the question a stand-alone statement.
但LAT的应用看起来似乎有局限性,应为在Watson中,question是以一种陈述的形式给出的,在
这种形式中,往往代词比如this就圈定了LAT,但在一般的问题形式中是否可以应用有待考察
对question进行Relation detection也很重要。但broad-domain relation detection是一件十分困难的
事情
以上所述的question analysis 工作的目的要达到question decomposition,这个我目前的思路是一致的,
先分解, 然后对部分作出高confidence的analysis,然后再进行合成
Hypothesis generation的过程就是产生candidate answers的过程,这个过程可以是一个不断迭代,
逐步求精的过程。各种搜索技术综合应用,文本搜索,KB搜索
candidate answer 和question key 一起可以用来去search一些support evidence,我们可以对search到的support evidence
打分,来决定这个answer是否可信