自然语言处理 cs224n课程 Lecture 15: Natural Language Generation

最新推荐文章于 2023-06-26 22:32:43 发布

努力努力再努力_越努力越幸运

最新推荐文章于 2023-06-26 22:32:43 发布

阅读量352

点赞数

分类专栏： NLP自然语言处理文章标签： cs224n nlp

本文链接：https://blog.csdn.net/qq_33908388/article/details/98734206

版权

NLP自然语言处理专栏收录该内容

21 篇文章 2 订阅

订阅专栏

主要内容：

总结目前已经知道的关于NLG的内容
关于解码算法的更多内容
NLG的任务和神经网络方法
NLG的评估：一个困难的处境
总结了NLG的研究思路、研究现状和展望

第一部分：回顾：语言模型和解码算法

NLG:自然语言生成。生成一段新的文本
NLG是以下任务的组成成分之一：
机器翻译
概要
对话
创造性写作：讲故事，诗歌生成
自由形式的问答：回答是生成的，而不是从文本中提取
图像标题

语言模型：给定一系列单词，预测下一个单词的任务

产生下一个单词的概率分布的系统叫语言模型

如果采用的是RNN的方法，则称为RNN语言模型

条件语言模型：给定一系列单词和一些输入x，预测下一个单词的概率

条件语言模型的例子：

机器翻译(x=源句子，y=目标句子)
摘要（x=输入文本，y=摘要输出）
对话（x=对话历史，y=下一个句子）

teacher focus：

在训练过程中，不管解码器预测什么，我们都将gold (aka reference)目标句输入解码器。这种训练方法叫做教师强迫。

解码算法：一种从语言模型中生成文本的算法

介绍两种解码算法：

贪心解码
光束搜索

贪心解码：

一个简单的算法，在每一步中，取最大可能性的单词作为下一个单词，并且把它作为下一步的输入，重复执行以上步骤知道输出end

由于缺少回溯，输出可能很差

光束搜索:

在每一步中最终k个最可能的单词。一旦搜索停止，获取可能性最高的序列

k=1时是贪心算法

更大的k意味着要考虑多种可能，计算代价高。

对于NMT，更大的k会降低blue的分数，因为大的k会导致很短的翻译

对于对话系统，更大的k会导致产生很多通用的回答

基于采样的解码

纯净抽样：

在每一步t，根据概率Pt中随机抽样来获得下一个单词，类似于贪心算法，但是使用的是抽样而不是argmax

top-n抽样：

在每一步t中，从n个可能性最大的单词中根据概率Pt随机抽样一个

n=1时是贪心搜索，n=V时是纯净抽样

softmax temperature

在时间步t中，语言模型通过softmax计算可能的概率分布

可以在softmax中应用一个超参数τ

提高τ，Pt会变得更均匀，就会有更多样性的输出

降低τ，就会有更少多样性的输出，概率分布比较集中

总结：

贪心解码：输出质量较差
光束搜索：比贪心解码好，但是k很大时效果不好
抽样方法：是一种获取多样性和更少随机性的方法，对创造性的输出效果很好，top-n抽样可以很好的控制多样性
softmax temperature：不是一种解码算法，是一种在任何解码算法中都可以应用的技术

第二部分：NLG任务和应用于它的神经网络方法

摘要：给定输入文本x，写出一个概要y，y要比x短以及包含x的主要内容

摘要可以是单个文本的摘要也可以是多个文本的摘要

在单文档摘要中，有包含不同长度和样式的源文档的数据集:
•Gigaword:新闻文章的前一两句话→标题(即句子压缩)
•LCSTS(中文微博):段落→句子总结
•纽约时报，CNN/每日邮报:新闻报道→(多句)摘要
•Wikihow (new!):完整的how-to文章→总结句

句子简化是一个不同但相关的任务:用更简单(有时更短)的方式重写源文本
•简易维基百科:标准维基百科句子→简易版
•Newsela:新闻报道→儿童版

摘要：两个主要的策略

1、抽取总结：从原文本中抽取部分来形成一个总结。更简单

2、摘要式总结：使用自然语言生成技术生成一个新的文本。更困难

前神经摘要系统多为提取系统

1、内容选择：选择一些包含的句子

2、信息排序：给这些句子排序

3、句子实现：编辑这些句子序列

摘要的评估：GOUGE

和BLEU类似，它是基于n-gram的。不同之处：

ROUGE没有简洁惩罚

ROUGE是基于召回率的，BLEU是基于准确率的

机器翻译更看重准确率，摘要更看重召回率

神经摘要

单文本的的抽象摘要是一个翻译任务！因此我们可以采用seq2seq+NMT的方法

自从2015年以后，有了更大的发展

使复制更简单

分等级的多层的注意力

更全面的高层内容选择

使用增强学习来直接最大化ROUGE

神经摘要：复制机制

序列到序列+注意力机制对于书写流利的输出很擅长，但是对于复制细节信息不擅长，比如罕见的单词

复制机制使用注意力来使得从输入到输出复制单词或短语更简单.

一个例子：

在解码器阶段，计算Pgen：生成下一个单词的可能性。最终的分布是生成分布的最小化和复制分布

对话：

任务型对话：
帮助型的：顾客服务，提供建议，问答，帮助使用者完成一个任务等
社会对话：
聊天

前神经对话系统更常使用预定义的模板，或从反应语料库中检索适当的响应。

基于序列到序列的对话有一些缺陷：

无意义的回复
不相关的回复
重复
缺少内容
缺少一致性

谈判对话

他们发现，为标准最大可能性(ML)目标训练seq2seq系统会产生流畅但策略上较差的对话代理。

努力努力再努力_越努力越幸运

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理 cs224n课程 Lecture 15: Natural Language Generation

主要内容：总结目前已经知道的关于NLG的内容关于解码算法的更多内容 NLG的任务和神经网络方法 NLG的评估：一个困难的处境总结了NLG的研究思路、研究现状和展望第一部分：回顾：语言模型和解码算法NLG:自然语言生成。生成一段新的文本 NLG是以下任务的组成成分之一：机器翻译概要对话创造性写作：讲故事，诗歌生成自由形式的问答：回答是生成的，而不是从文本中...
复制链接

扫一扫