自然语言处理笔记week10

week10课程内容

一、Question-Answering 问答

希望计算机能够对给它的问题进行合理的回答。
问答系统总的来说有三类:
(1) Finding answers in text collections 从文档集合中找到答案
(2) Interfaces to relational databases 从关系数据库中找到答案
(3) Mixed initiative (互动式) dialog systems 混合互动对话系统

Factoid (事实性) questions:
即有标准答案的问题。比如:中国的首都是哪里? 答案是唯一确定的:北京。

QA系统的架构,下面一一介绍:
在这里插入图片描述

1、Question Processing 问题处理

主要包括两部分内容:
(1)问题分类:决定答案的类型。
(2)生成问题查询:从问题中提取关键词,并生成查询语句。

答案的类型:
对不同的问句,对应的答案类型是有规律的。比如:who 开头的问句,回答常是人,where开头的问句,回答常是地点。但也会有一些例外,比如 Who sells the cheapest goods? 答案可以是一个超市。因此,一般采用手写规则与机器学习相结合的方式,决定答案类型。

提取问题中的关键词:
在这里插入图片描述

2、Passage Retrieval 段落检索

将包含上一阶段得到的关键词的段落提取出来。检索的过程中,关键词的数量动态调整:
(1)第一个检索周期,使用 6 个关键词进行检索。
(2)如果提取出的段落数目大于预设值,加关键词;反之,减少关键词。

3、Answer Extraction

在这里插入图片描述

4、一种简易问答系统:AskMSR:

其大体步骤分为六步:

Rewrite Query:重写查询,并将问句类型归类。
Search Engine:将所有重写结果输入到搜索引擎,返回前若干个文档。
Mine N-grams:文档分词,N 通常枚举 1,2,3,根据出现频率给出置信度。
Filter N-grams:过滤分词结果,保留与问题类型相关的。在这里插入图片描述

Tile N-grams:组合分词结果,把重叠可拼接的词 merge,置信度也相加。
N-best Answers:答案通常都是多个,以置信度排序。
在这里插入图片描述

5、问答系统的评估

Mean Reciprocal Rank (平均排序倒数MRR): You’re allowed to return N answers. Your score is based on 1/Rank of the first right answer.

二、Information Retrieval 信息检索

基本假设:可以通过分析其中出现的单词来捕获文档的含义。
(1)倒排索引:
先介绍一下正向索引: 当用户发起查询时(假设查询为一个关键词),搜索引擎会扫描索引库中的所有文档,找出所有包含关键词的文档,这样依次从文档中去查找是否含有关键词的方法叫做正向索引。互联网上存在的网页(或称文档)不计其数,这样遍历的索引结构效率低下,无法满足用户需求。
为了增加效率,搜索引擎会把正向索引变为反向索引(倒排索引)即把“文档→单词”的形式变为“单词→文档”的形式。倒排索引具体机构如下:
单词1→文档1的ID;文档2的ID;文档3的ID…
单词2→文档1的ID;文档4的ID;文档7的ID…
(2)Stop Lists 停用词列表:
记录了出现次数很高但没有统计意义的词,比如 the , a , of 等等。
好处是减小了倒排索引表的规模。
(3)Stemming:
取单词的词干,例如 dogs 和 dog 在信息检索时都是用词干 dog。
(4)Vector Space Model 向量空间模型:
query 和 document 都映射成向量。
在这里插入图片描述

三、Summarization 摘要

摘要,就是要用尽可能短的语句传达尽可能多的信息。
(1)分类:
Informative 报道性 vs. Indicative 指示性:
报道性摘要适用于原创性论文,其基本要求是指明问题,概述文章主题和主要目标,简要总结主要结果和重要结论,并说明结果的价值和重要性。
指示性摘要又称描述性摘要,适用于综述性论文。这种摘要的作用类似于论文目录,只介绍论文做了什么或者总结了什么,而没有给出研究的主要结果和结论,因此,这种摘要不能作为研究性或原创性论文的摘要。
Extractive 摘抄 vs. Generative 生成
一个是从源文本摘出一部分,一个是生成新的内容。
(2)Luhn 58
Extractive 摘抄 vs. Generative 生成
一个是从源文本摘出一部分,一个是生成新的内容。
(2)Luhn 58
在这里插入图片描述

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值