论文:Get To The Point: Summarization with Pointer-Generator Networks解读
Abstract类型的文本摘要存在的问题:
- 容易产生不准确的事实;
- 倾向于重复相同的内容。
注:如上面所示,作为基线的seq2seq+Attention这样的纯粹的生成式模型存在1.无法生成OOV词汇;2.歪曲事实两个问题。Pointer Generator 存在重复内容的问题。在引入Coverage mechanism之后的Pointer-Gen+Coverage模型能够解决上面的三个问题。
论文的创新点:
- (1)使用一个混合的指针-生成器网络(hybrid pointer-generator network),它可以通过指针从源文本复制单词,这有助于准确复制信息,同时保留通过生成器生成新单词的能力。
- (2)使用覆盖率(coverage)来追踪摘要的内容,这有助于缓解重复的现象。
Introduction
文本摘要使用抽取和生成两种方法:抽取式和生成式。抽取式是从文章中选择关键的词句拼接而成,这种方式能够保证生成句子语法和准确性的下限。然而高质量的摘要往往需要分段、泛化或者结合知识,这种类型的摘要只能使用生成式方法。seq2seq模型有三个问题:不准确的再现事实,无法处理词汇表外的(OOV)的单词,重复自己。论文提出的模型可以在多句子的文本摘要中解决这三个问题。混合指针-生成器网络便于通过指向从源文本复制单词,这提高了OOV单词的准确性和处理能力,同时保留了生成新单词的能力。可以看作是提取和抽象方法之间的平衡。在消除重复方面,论文提出了覆盖向量(coverage vector)来跟踪和控制对源文本的覆盖。
seq2seq attention model
1.标准的seq2seq模型使用BiLSTM对源文本进行编码,然后使用Encoder hidden state和Decoder hidden state计算新的时间步的Attention分布,进而得到新的上下文向量context vector,使用softmax层对上下文变量解码得到新时间步的词汇分布。
- 根据当前解码器的隐藏状态 s t s_t st和输入不同时间步的隐藏状态 h i h_i hi分别计算得到attention分布 a t a^t at
e i t = v T t a n h ( W h h i + W s s t + b a t t ) e_i^t = v^T tanh(W_hh_i+W_ss_t+b_{att}) eit=vTtanh(Whhi+Wsst+batt)
a t = s o f t m a x ( e t ) a^t = softmax(e^t) at=softmax(et)
- 计算attention分布对所有的 h i h_i hi加权和
h t ∗ = ∑ i a i t h i h_t^* = \sum _i a_i^t h_i ht∗=i∑ait</