[Datawhale Camp] Task04- 从用户输入到知识库的查询语句

本文介绍了问答系统的工作原理,包括规则式、统计/机器学习和深度学习模型在处理Query时的角色。重点讨论了问答系统的定义、问题类型,如彷真陈述问答、清单问答和定义问答,并提及了时间限制问题和序列问题的复杂性。实战部分提到了使用AC Tree进行问句过滤和命名实体识别的任务。

1.任务理解

  • 问答系统的范畴

  • 问答系统的准确度取决于 Query 的方法不同

    • 规则式
    • 统计/机器学习分类模型 e.g. HMM, CRF
    • 深度学习模型 e.g. LSTM, BERT
    • 结合以上,取其所长 e.g. Bi-LSTM+CRF
  • 问题拆解(Entity Extraction)结合意图类型辨识

2.问答系统

2.1 定义

问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。

2.2 问题定义类型

问答系统的 input 是自然语言问句,为了有效控制研究变因,多会定制可接受的问题类型来限制研究范围。

  1. 彷真陈述问答(Factoid Question Answering):最基本的类型,此类系统根据答案语料所述资讯,取出一小段字串作为答案。由于答案的正确与否是根据答案语料的内容来决定,在现实生活中不一定为真,故称为彷真陈述问答。
  2. 清单问答(List Question Answering):系统把问答范围进一步缩小,限定在人、地、组织等明确的专有名词上。e.g.清单型问句:『请列举美国历届总统』
  3. 定义问答( Definition Question Answering):若能回答定义问题,以此类推还能定义出其他类型的问题。
    除了上述问题定义与资讯内容有关的类型外,还有两种比较複杂的问句类型:
  4. 时间限制问题(Temporally Restricted Questions):时间限制型的问题会在问句中明确指出答案的时间范围限制,比如说以「民国九十年时的国民党主席是谁」这问句来说,系统必须有根据答案语料结构化资料,或上下文来推论正确答案的能力。
  5. 序列问题(Series of Questions):把问答系统未来的应用定位在互动式的系统上,经过来回多次问答的方式来满足使用者的资讯需求。

3.实战练习

在这里插入图片描述

下载预训练好的文本模型的路径 word2vec_path .
Chinese Word Vectors 中文词向量
我选的是 sgns.wiki.bigram-char (Wikipedia_zh 中文维基百科)

使用AC Tree进行问句过滤

  • AC自动机是多模式匹配算法,这样构建fail指针的目的是为了让匹配时可以一直在trie树上面跳
  • 当前节点匹配失败时可以通过fail指针跳转到其他节点,不用回溯就可以一直匹配下去了
  • 每个节点的失配指针所指向的深度永远是比i小的,因为fail所指向的是永远是后缀

命名实体识别任务实践
此部分代码理解整合在 Task5 当中。


参考资料

  1. Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句
  2. 字典树&&AC自动机
  3. 問答系統 | 机器之心
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值