搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货
csdn:https://blog.csdn.net/abcgkj
github:https://github.com/aimi-cn/AILearners
Global Encoding for Abstractive Summarization
source:ACL(2018)
author:Junyang Lin, Xu Sun, Shuming Ma, Qi Su
MOE Key Lab of Computational Linguistics, School of EECS, Peking University,School of Foreign Languages, Peking University
Abstract
- 提出问题:在神经网络的生成式摘要中,传统的seq2seq模型往往存在重复和语义无关的问题。
- 解决问题:为了解决这一问题,我们提出了一个全局编码框架,它根据源上下文的全局信息控制从编码器到解码器的信息流。它由一个卷积门控单元组成,用于执行全局编码以改进源端信息的表示。
- 评估(优点):对LCSTS和英语Gigaword的评估都表明,我们的模型优于基准模型,分析表明,我们的模型能够生成更高质量的摘要,减少重复。
1 introduction
-
介绍了生成式摘要的一些已有模型:
- Encoder : 主要是RNN,通常为LSTM和GRU
- Decoder: 通常也为RNN(但也有CNN)
- attention mechanical:添加注意力或者全局注意力在相关源侧信息上
-
并举例提出了主要问题
2 Global Encoding(proposed model)
我们的模型是建立在seq2seq模型的基础上的。对于编码器,我们设置了一个卷积门控单元( convolutional gated unit)用于全局编码。全局编码以RNN编码器的输出为基础,利用CNN对源上下文的表示进行细化,以改善单词表示与全局上下文的连接。下面将详细介绍这些技术。
本文的主要创新点:
2.1 Atention-based seq2seq
RNN编码器依次从源文本接收每个单词的词向量。包含整个源文本信息的最终隐藏状态成为解码器的初始隐藏状态。这里我们的编码器是一个双向LSTM编码器,其中编码器在每个时间步长从两个方向输出
我们实现了一个单向的LSTM解码器来读取输入的单词并逐词生成摘要,并读取在一个高维空间Y的固定目标词汇表向量。
2.2 Concolutional Gated Unit
生成式摘要要求在每个编码时间步骤中都有核心信息。为了达到这个目标,我们在每个时间步长编码器输出的顶部设置了一个门控单元,这是一个CNN,它对所有编码器输出进行卷积。卷积核的参数共享使模型能够提取特定类型的特征,特别是n-gram特征。与图像相似,语言也包含局部相关,如短语结构的内部相关。卷积单元可以提取句子中的这些共同特征,并指出源注释之间的相关性。
2.3 Training
给定参数θ和source text x,模型生成的摘要为y^~。学习过程是将生成的summary y^~与reference y之间的负对数可能性最小化
其中,损失函数等价于最大化给定参数和源序列x的汇总y的条件概率。
3 Experiment Setup
下面,我们将介绍在其上进行实验的数据集、实验设置以及与之进行比较的基线模型。
3.1 Datasets
- LCSTS是中国著名社交媒体网站新浪微博(胡et al., 2015)上收集的大型中文短文本摘要数据集,包含240多万对文本摘要对。原始文本短于140个汉字,摘要是手动创建的。我们按照之前的研究(胡et al., 2015)对训练、验证和测试的数据集进行分割,其中训练语句对240万对,验证语句对8K,测试语句对0.7K。
- 英语的Gigaword是一个基于带注释的Gigaword (Napoles et al., 2012)的句子摘要数据集,是由句子对组成的数据集,其中句子对是所收集的新闻文章的第一句话和相应的标题。我们使用Rush等人(2015)预处理的380万对句子对进行训练,8K进行验证,2K进行测试。
3.2 Experiment Settings
- 实验设置:在PyTorch用NVIDIA 1080Ti GPU
- 词嵌入维数和隐藏单元数均为512。
- 在两个实验中, b a t c h s i z e = 64 batch size=64 batchsize=64
- 使用Adaam optimizer(Kingma and Ba,2014) with the default setting
α = 0.001 , β 1 = 0.9 , β 2 = 0.999 , ϵ = 1 ∗ 1 0 − 8 \alpha=0.001,\beta_1=0.9,\beta_2=0.999,\epsilon=1*10^{-8} α=0.001,β1=0.9,β2=0.999,ϵ=1∗10−8 - 学习率每隔一段时间就减半(The learning rate is halved every epoch.)
- (Gradient clippingis applied with range [-10, 10])
- 评估:ROUGE score:计算生成的摘要和参考之间的重叠程度,including the number
of n-grams. F1 scores of ROUGE-1, ROUGE-2 and ROUGE-L are used as the evaluation metrics.
3.3 Baseline models
当我们将我们的结果与原始论文中报告的基线模型的结果进行比较时,两个数据集上的评估有不同的基线。下面,我们将分别介绍LCSTS和Gigaword的基线。
下面介绍LCSTS的基线。RNN和RNN-context是基于RNN的seq2seq模型(胡et al., 2015),分别没有注意机制和有注意机制。Copy- Net是基于注意力的seq2seq模型,具有复制机制(Gu et al.,2016)。SRB是一种改进源文本和摘要之间语义关联的模型(Ma et al., 2017)。DRGD是传统的seq2seq,带有一个深度循环生成解码器(Li et al., 2017)。
至于Gigaword的基线,ABS和ABS+是具有local attention和handcrafted的模型(Rush et al., 2015)。Feats是一个完整的RNN seq2seq模型,具有一些特定的方法来控制词汇量。RASLSTM和RAS-Elman分别是带有卷积编码器和LSTM解码器以及Elman RNN解码器的seq2seq模型。SEASS是一个带有选择gate机制的seq2seq模型。DRGD也是Gigaword的基准。
我们在两个数据集上实现传统seq2seq模型的结果也用于评估我们所提议的卷积门控单元(CGU)的改进。
4 Analysis
5 Related work
研究人员开发了许多统计方法和基于语言规则的方法来研究自动摘要(Banko et al., 2000;Dorr等,2003;Zajic等,2004;科恩和拉帕塔,2008)。随着神经网络在NLP中的发展,越来越多的研究出现在生成式摘要中,神经网络似乎可以帮助实现这两个目标。Rush等人(2015)首次应用seq2seq+attention的序列模型进行生成式摘要,实现了显著的成果。Chopra et al.(2016)使用RNN解码器改变ABS模型,Nallapati et al.(2016)将系统改为全RNN序列到序列模型,取得了优异的性能。Zhou等(2017)提出了一种selective gate mechanism to filter secondary information。Li等(2017)提出了一种deep recurrent generative decoder to learn latent structure information。Ma等人(2018)提出了一种generates words by querying word embeddings的模型。
6 Conclusion
- 本文提出了一种新的生成式摘要模型。卷积门控单元对源端信息进行全局编码,保留核心信息,过滤次要信息。
- 在LCSTS和Gigaword上的实验表明,我们的模型性能优于基准模型,分析表明,与传统的seq2seq模型相比,该模型能够
- 减少生成摘要的重复
- 并且对不同长度的输入具有更强的鲁棒性
相关链接
1.Global Encoding for Abstractive Summarization
2.Global Encoding for Abstractive Summarization论文海报
3.本文代码
4.Global Encoding for Abstractive Summarization 论文代码复现1——生成式文本摘要
5.Global Encoding for Abstractive Summarization 论文代码复现2——生成式文本摘要