主要内容:
- 总结目前已经知道的关于NLG的内容
- 关于解码算法的更多内容
- NLG的任务和神经网络方法
- NLG的评估:一个困难的处境
- 总结了NLG的研究思路、研究现状和展望
第一部分:回顾:语言模型和解码算法
- NLG:自然语言生成。生成一段新的文本
- NLG是以下任务的组成成分之一:
- 机器翻译
- 概要
- 对话
- 创造性写作:讲故事,诗歌生成
- 自由形式的问答:回答是生成的,而不是从文本中提取
- 图像标题
语言模型:给定一系列单词,预测下一个单词的任务
产生下一个单词的概率分布的系统叫语言模型
如果采用的是RNN的方法,则称为RNN语言模型
条件语言模型:给定一系列单词和一些输入x,预测下一个单词的概率
条件语言模型的例子:
- 机器翻译(x=源句子,y=目标句子)
- 摘要(x=输入文本,y=摘要输出)
- 对话(x=对话历史,y=下一个句子)
teacher focus:
在训练过程中,不管解码器预测什么,我们都将gold (aka reference)目标句输入解码器。这种训练方法叫做教师强迫。
解码算法:一种从语言模型中生成文本的算法
介绍两种解码算法:
- 贪心解码
- 光束搜索
贪心解码:
一个简单的算法,在每一步中,取最大可能性的单词作为下一个单词,并且把它作为下一步的输入,重复执行以上步骤知道输出end
由于缺少回溯,输出可能很差
光束搜索:
在每一步中最终k个最可能的单词。一旦搜索停止,获取可能性最高的序列
k=1时是贪心算法
更大的k意味着要考虑多种可能,计算代价高。
对于NMT,更大的k会降低blue的分数,因为大的k会导致很短的翻译
对于对话系统,更大的k会导致产生很多通用的回答
基于采样的解码
纯净抽样:
在每一步t,根据概率Pt中随机抽样来获得下一个单词,类似于贪心算法,但是使用的是抽样而不是argmax
top-n抽样:
在每一步t中,从n个可能性最大的单词中根据概率Pt随机抽样一个
n=1时是贪心搜索,n=V时是纯净抽样
softmax temperature
在时间步t中,语言模型通过softmax计算可能的概率分布
可以在softmax中应用一个超参数τ
提高τ,Pt会变得更均匀,就会有更多样性的输出
降低τ,就会有更少多样性的输出,概率分布比较集中
总结:
- 贪心解码:输出质量较差
- 光束搜索:比贪心解码好,但是k很大时效果不好
- 抽样方法:是一种获取多样性和更少随机性的方法,对创造性的输出效果很好,top-n抽样可以很好的控制多样性
- softmax temperature:不是一种解码算法,是一种在任何解码算法中都可以应用的技术
第二部分:NLG任务和应用于它的神经网络方法
摘要:给定输入文本x,写出一个概要y,y要比x短以及包含x的主要内容
摘要可以是单个文本的摘要也可以是多个文本的摘要
在单文档摘要中,有包含不同长度和样式的源文档的数据集:
•Gigaword:新闻文章的前一两句话→标题(即句子压缩)
•LCSTS(中文微博):段落→句子总结
•纽约时报,CNN/每日邮报:新闻报道→(多句)摘要
•Wikihow (new!):完整的how-to文章→总结句
句子简化是一个不同但相关的任务:用更简单(有时更短)的方式重写源文本
•简易维基百科:标准维基百科句子→简易版
•Newsela:新闻报道→儿童版
摘要:两个主要的策略
1、抽取总结:从原文本中抽取部分来形成一个总结。更简单
2、摘要式总结:使用自然语言生成技术生成一个新的文本。更困难
前神经摘要系统多为提取系统
1、内容选择:选择一些包含的句子
2、信息排序:给这些句子排序
3、句子实现:编辑这些句子序列
摘要的评估:GOUGE
和BLEU类似,它是基于n-gram的。不同之处:
ROUGE没有简洁惩罚
ROUGE是基于召回率的,BLEU是基于准确率的
机器翻译更看重准确率,摘要更看重召回率
神经摘要
单文本的的抽象摘要是一个翻译任务!因此我们可以采用seq2seq+NMT的方法
自从2015年以后,有了更大的发展
使复制更简单
分等级的多层的注意力
更全面的高层内容选择
使用增强学习来直接最大化ROUGE
神经摘要:复制机制
序列到序列+注意力机制对于书写流利的输出很擅长,但是对于复制细节信息不擅长,比如罕见的单词
复制机制使用注意力来使得从输入到输出复制单词或短语更简单.
一个例子:
在解码器阶段,计算Pgen:生成下一个单词的可能性。最终的分布是生成分布的最小化和复制分布
对话:
- 任务型对话:
- 帮助型的:顾客服务,提供建议,问答,帮助使用者完成一个任务等
- 社会对话:
- 聊天
前神经对话系统更常使用预定义的模板,或从反应语料库中检索适当的响应。
基于序列到序列的对话有一些缺陷:
- 无意义的回复
- 不相关的回复
- 重复
- 缺少内容
- 缺少一致性
谈判对话
他们发现,为标准最大可能性(ML)目标训练seq2seq系统会产生流畅但策略上较差的对话代理。