知识问答概述和相关数据集 id="tmp_downloadhelper_iframe">
基于模板的问答专家系统->基于信息检索的问答->基于社区的问答->基于知识库的问答
测评数据集
QALD,是多语言的链接数据问答系统的评测竞赛活动
多语种问答/基于链接数据的问答/Hybrid QA,基于RDF and free text data
WebQuestions
Free917
KBQA基本概念及挑战
问句分析->语义匹配、推理->候选答案得分->构造query->答案检索和评估
难点在于如何将自然语言变成查询语言
输入的是自然语言却不一定是QA
问句短语:
Wh-words + nouns/adj/adv…
问句类型:
事实型问题——谓词性问题/列表型问题/最高级型问题/对错型问题
观点型问题
因果型问题
方法型问题
解释型问题
关联型问题
比较型问题
答案类型:
缩写/实体/描述/展示….
问题主题:
关于哪个方面的
领域类型:
开放域/特定域
文本/图片/音频/视频
多模态回答
Visual QA
答案格式:
长/短/精确答案
质量评估:
Relevance
Correntness
Conciseness
Completeness
Simplicity
Justification
答案处理:
简单抽取
组合
摘要
推理
映射自然语言表达式到KG元素词汇:
more than 1 million->FILTER(?p > 1000000)
the most->ORDER BY DESC(COUNT(?X)) OFFSET 0 LIMIT 1
知识问答主流方法介绍
基于模板:
模板定义/模板生成/模板匹配
Constructs a query template that directly mirrors the linguistic structure of the question
Instantiates the template by matching natural language expression with ontology concepts
In order to understand a user question,we need to understand:
The words(died in -> dbo:deathPlace)
The semantic structure(who -> SELECT ?x WHERE{……})
Aim:An approach that combines both an analysis of the semantic structure and a mapping of words to URLs
Template generation模板生成
Template instantiation模板实例化
填入模板->排序打分
缺点:创建的模板结构未必和知识图谱中的数据建模相契合/手工准备海量模板的代价非常大
自动生成模板->根据utterance-answer对,根据依存树自动学习utterance-query模板
利用自然语言的组成特点,可以使用从简单问题中学到的模板来解决复杂问题
ILP技术对齐
复杂句的拆分和整合
词典L构建->词典L对齐
新问题->依存分析->S-MART进行NERL(freebase)->去模板库中进行匹配->再使用词典L对对齐关系进行实例化
传统语义分析方法:
问句->语义解析->语义表示->语义匹配、查询、推理->知识库
资源映射——复杂映射(was also born in->PlaceOfBirth)
逻辑表达式
弱监督语义解析:
可以较为轻松地从普通民众获得
文本映射到KB的若干挑战:
字符串匹配不精确/穷举不可行/字符串匹配存在覆盖率低的问题
</div>