【读】seq2seq—(8)A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for TextSum

第一篇非转载,而是尝试自己写阅读笔记,虽然感觉变成了整篇翻译…以后慢慢改进吧。

学然后知不足。

这是一篇Abstractive Text Summarization相关的paper,出自于腾讯知文团队、苏黎世联邦理工学院、哥伦比亚大学和腾讯 AI Lab,A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization.收录于 IJCAI 2018。

本文主要做了三个方面的工作:

(1)基于卷积神经网络的sequence to sequence框架,将主题模型整合进自动摘要模型中。

(2)使用了self-critical强化学习方法,针对ROUGE评价指标对模型进行优化。

(3)基于三个基准的数据集进行训练检测。


目录

Abstract

Introduction

Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model

ConvS2S架构

Topic-Aware Attention Mechanism

Reinforcement Learning

Experimental Setup

Datasets

Topic Information

Model Parameters and Optimization

Results and Analysis

Gigaword Corpus

DUC-2004 Dataset

LCSTS Dataset

Conclusion and Future Work

NOTE


Abstract

本文将自动文摘问题当作一个Seq2Seq的问题,并且应用Attentional Encoder-Decoder Recurrent Neural Networks框架来解决这个问题,并且在两个不同的数据集上取得了超越ABS(Rush,2015)模型的结果。同时,本文还提出多种模型来研究自动文摘中的重要问题,比如对关键词进行建模,并且得出词对于文档研究起关键作用的结论。研究结果表明本文的解决方案在性能上有很大的提升,另外,还贡献了一个包括多句子文摘的数据集和基准。

本文中,我们提出了一种新方法,该方法基于卷积神经网络的 sequence to sequence 框架(ConvS2S)[Gehring et al., 2017],引入结合主题模型的注意力机制。就我们所知,这是生成式文本摘要中首个采用卷积框架结合联合注意力机制引入主题信息的研究,这能将主题化的和上下文的对齐信息提供到深度学习架构中。此外,我们还通过使用强化学习方法 [Paulus et al., 2017] 对我们提出的模型进行了优化。本论文的主要贡献包括:

本文的贡献点有三个:(1)提出了结合多步注意力机制和带偏置生成机制的方法,将主题信息整合进了自动摘要模型中,注意力机制能引入上下文信息来帮助模型生成更连贯、多样性更强和信息更丰富的摘要;(2)在ConvS2S的训练优化中使用了self-critical强化学习方法(SCST:self-critical sequence training),以针对文本摘要的指标ROUGE来直接优化模型,这也有助于缓解曝光偏差问题(exposure bias issue);(3)在三个基准数据集上进行了广泛的实验,结果表明引入主题模型和SCST强化学习方法的卷积神经网络能生成信息更丰富更多样化的文本摘要,模型在数据集上取得了较好的文本摘要效果。

Introduction

自动文本摘要的主要挑战是正确地评价和选择重要信息,有效地过滤冗余内容,正确地聚合相关段,并进行人类可读的总结。与其他NLP任务相比,自动总结有其自身的困难。

最近,深度神经网络模型被广泛应用于NLP任务,如Bahdanau研究的机器翻译(2014),以及Nallapati的文本摘要(2016b)。特别是Bahdanau提出的基于注意力机制的序列框架,结合Sutskever提出的神经网络(RNNs),在NLP任务中有很大优势。然而,基于rnn的模型更容易因其非线性的连锁结构而导致的梯度消失,与基于cnn的模型的层次结构相比(2016)。此外,rnn的隐藏状态之间的时间依赖性阻止了序列元素的并行化,这使得训练效率低下。

本文主要是基于ConS2S框架引入了结合主题模型的注意力机制,并使用强化学习的方法针对评价指标ROUGE对模型进行了优化。

在摘要任务中,很少有方法探讨卷积结构的性能。与RNNs相比,卷积神经网络(CNNs)有几个优点,包括利用并行计算的有效训练,以及减少由于非线性而减少的梯度消失问题。值得注意的是,最近提出的封闭式卷积网络,在语言建模和机器翻译任务中胜过了最先进的基于rnn的模型。

虽然在抽取式摘要的研究中也对卷积神经网络模型进行了评估[Gehring et al., 2017],但也存在一些局限性。首先,这个模型是通过最小化最大似然函数的损失来训练的,这种损失有时与摘要的质量不一致,以及从整句话中评估的度规,如ROUGE指标 [Lin, 2004]。此外,曝光偏差问题[Ranzato et al., 2015]发生的原因是,只将模型暴露在训练数据分布中,而不是我们的预测中。更重要的是, ConvS2S模型只使用了文字级的排列,这可能不足以概括和容易产生不连贯的概括总结。因此,更高级别的对齐可能是一个潜在的帮助。例如,主题信息已经被引入到基于rnn的序列[Xing et al., 2017] 对聊天机器人的序列模型中,以产生更多的信息反馈。

##(待总结)

Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model

引入强化学习和主题模型的卷积 sequence to sequence 模型,其包含词语信息输入和主题信息输入的双路卷积神经网络结构、一种多步联合注意力机制、一种带主题信息偏置的文本生成结构和一个强化学习训练过程。图展示了这种引入主题信息的卷积神经网络模型。

图:引入主题信息的卷积神经网络结构示意图。源序列的单词和主题的嵌入是由相关的卷积块(左下方和右下方)编码的。然后,我们通过计算解码器表示(左上角)和文字/主题编码器表示的点积来共同关注单词和主题。最后,我们通过一个有偏差的概率生成机制来生成目标序列。

##(待总结)

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值