斯坦福大学-自然语言处理入门笔记第二十一课问答系统（2）

最新推荐文章于 2022-11-07 17:06:56 发布

sansheng su

最新推荐文章于 2022-11-07 17:06:56 发布

阅读量1.1k

点赞数

分类专栏： introduction to NLP 文章标签：总结器 NLP 自然语言处理 question answering

introduction to NLP 专栏收录该内容

19 篇文章

订阅专栏

一、问答系统中的总结（summarization）

目标：产生一个摘要文本包含那些对用户重要和相关的信息
总结的应用领域：任何文档的摘要和大纲，邮件摘要等等
根据总结的内容，我们可以把总结分为两类：
- 单文档总结：给出一个单一文档的摘要、大纲、标题
- 多文档总结：给定一组文档，给出内容主旨；比如说同一个事件的新故事，关于一些话题和问题的网页
根据总结的目的，我们可以把总结分为两类：
- 泛总结：总结文档的内容
- 聚焦请求的总结：基于用户请求展现出的信息需求在总结文档；这是一种复杂的问答系统，通过总结含有某些信息的文档来构建回答
根据回答的特点，我们可以把总结分为两类：
- 提炼（extractive）总结：基于源文档的词组和句子来构建总结
- 抽象（abstractive）总结：用一部分的不同单词来表达源文档的观点
一个非常简单的方法：使用第一行的句子

二、生成片段（snippets）

总结的三个阶段：
- 内容选择：选择从文档中抽取的句子
- 信息排序：为这些句子选择顺序
- 句子实现：清理句子

1、无监督的句子选择

这个思想主要源于Luhn（1958）：选择那些更重要和更有信息性的单词
两种定义重要单词的方法：
- tf-idf：对每个在文档j中的单词wi进行tf-idf权重计算
- 话题署名：选择更小一部分的重要单词
  - 互信息
  - 对数似然比例（LLR）
选择更有信息性的单词
- 对数似然比例（LLR）
- 是否在请求中出现
句子重要性计算：句子中的单词的重要性的和

2、有监督句子选择

给定：对训练文档进行标注，标注出好总结
对应关系：文档中的句子和总结中的句子的对应关系
抽取特征：句子的位置（第一句话？），句子的长度，单词的信息等等
训练：进行一个二分类的训练，判断是否要把句子放到总结中
问题：很难得到标注的数据；找到对应关系很困难；效果并不比无监督算法
所以在实际中，无监督的内容选择是更普遍。

三、总结器的评估：ROUGE

这是对
- 基于BLEU（机器学习所使用的度量）
- 并不比人工评估好（即直接让人工判断这个回答是不是用户的问题）
- 但是会更方便
给定一个文档D和一个自动生成的总结X
- 有N个人工产生的可以参考的关于D的总结
- 运作总结器，给出自动生成的总结X
- 参考总结中二元组在X中出现的比例就是度量
一个例子：

四、更复杂的问题：总结多个文档

这部分现在还没有商业化，但是目前研究的议题。如何回答更长更困难的问题？比如
两种通过请求聚焦总结（query-focused summarization）进行困难问题的回答的方法
- 从下往上的片段方法：找到一系列相关的文档；从这些文档中利用tf-idf，MMR来进行信息性句子抽取；排序并调整句子形成答案
- 从上往下信息抽取方法：对不同的问题类型建立特定的回答格式
  - 个人传记需要包含：生卒年月、教育、国籍等等
  - 定义需要包含：属、上义关系

1、从下往上的片段方法

聚焦请求的多文档总结的流程
简化句子：最简单的方法是利用句法分析句子，根据一些人工规则来决定哪些修饰语可以被删除，现在越来越多开始使用机器学习的方法
从多文档中抽取内容的方法：最大边际关联（MMR）
- 一种贪婪的方法，迭代选择最好的句子插入到总结中。最好的句子是相关且含有新含义的句子
- 相关：和用户请求的最大相关，即与请求的cosine相似度高
- 新颖：和现在已经有的总结相比，相关度更低，即与请求的cosine相似度低
  - 当满足想要的长度的时候就停止
LLR+MMR：选择有丰富含义同时新颖的句子
- 第一步，对每个句子基于LLR计算分数
- 第二步，把得分最高的句子放入总结中
- 第三步：迭代加入得分高且含有新含义的句子
信息排序
- 时间顺序：根据文档的时间顺序排序
- 连贯性：使得相邻的句子相似的顺序；使得相邻的句子讨论同一个实体
- 话题顺序：学习源文档的话题顺序

2、从上往下信息抽取方法

从上往下信息抽取方法：对不同的问题类型建立特定的回答格式，比如
- 个人传记需要包含：生卒年月、教育、国籍等等
- 定义需要包含：属、上义关系
一个例子

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。