[Datawhale Camp] Task04- 从用户输入到知识库的查询语句

最新推荐文章于 2025-02-14 18:00:52 发布

原创最新推荐文章于 2025-02-14 18:00:52 发布 · 580 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了问答系统的工作原理，包括规则式、统计/机器学习和深度学习模型在处理Query时的角色。重点讨论了问答系统的定义、问题类型，如彷真陈述问答、清单问答和定义问答，并提及了时间限制问题和序列问题的复杂性。实战部分提到了使用AC Tree进行问句过滤和命名实体识别的任务。

1.任务理解

问答系统的范畴
问答系统的准确度取决于 Query 的方法不同
- 规则式
- 统计/机器学习分类模型 e.g. HMM, CRF
- 深度学习模型 e.g. LSTM, BERT
- 结合以上，取其所长 e.g. Bi-LSTM+CRF
问题拆解（Entity Extraction）结合意图类型辨识

问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。

问答系统的 input 是自然语言问句，为了有效控制研究变因，多会定制可接受的问题类型来限制研究范围。

彷真陈述问答（Factoid Question Answering）：最基本的类型，此类系统根据答案语料所述资讯，取出一小段字串作为答案。由于答案的正确与否是根据答案语料的内容来决定，在现实生活中不一定为真，故称为彷真陈述问答。
清单问答（List Question Answering）：系统把问答范围进一步缩小，限定在人、地、组织等明确的专有名词上。e.g.清单型问句：『请列举美国历届总统』
定义问答（ Definition Question Answering）：若能回答定义问题，以此类推还能定义出其他类型的问题。
除了上述问题定义与资讯内容有关的类型外，还有两种比较複杂的问句类型：
时间限制问题（Temporally Restricted Questions）：时间限制型的问题会在问句中明确指出答案的时间范围限制，比如说以「民国九十年时的国民党主席是谁」这问句来说，系统必须有根据答案语料结构化资料，或上下文来推论正确答案的能力。
序列问题（Series of Questions）：把问答系统未来的应用定位在互动式的系统上，经过来回多次问答的方式来满足使用者的资讯需求。