Point-Generator网络可以被视为提取和抽象方法之间的平衡,类似于Gu等人(2016)CopyNet和Miao and Blunsom(2016)强制注意句子压缩,适用于短文本摘要。文章提出了神经机器翻译的覆盖向量的新变体(Tu et al,2016),用它来跟踪和控制源文档的覆盖范围,覆盖率对于消除重复非常有效。
论文地址:
https://arxiv.org/abs/1704.04368
引言
摘要是将每个文本压缩到包含原始主要信息的较短版本的任务。 摘要有两种方法:提取和抽象。 提取方法仅从源文本中的段落(通常是整个句子)汇总,而抽象方法能生成源文本中没有的新单词和短语。
数据集
使用CNN /每日邮报数据集(Hermann等,2015; Nallapati等,2016),其中包含在线新闻文章(平均781个令牌)与多句话摘要(平均3.75个句子或56个令牌)配对使用了Nallapati等人提供的脚本。 (2016)获得相同版本的数据,具有287,226个训练对,13,368个验证对和11,490个测试对。
模型
1.序列到序列的注意力模型
1)模型的输入为
h
i
,
s
t
h_i,s_t
hi,st,输出为
a
t
a^t
at
2)模型的输入
h
i
,
a
i
t
h_i,a_i^t
hi,ait,输出为context vector
h
i
∗
h_i^*
hi∗
3)模型的输入
h
i
∗
,
s
t
h_i^*,s_t
hi∗,st,输出为单词概率分布
2.定位-生成网络
1)模型的输入
h
t
∗
,
s
t
,
x
t
h_t^*,s_t,x_t
ht∗,st,xt,输出为生成概率pgen用作软开关,用于选择从词汇表中通过Pvocab采样生成词汇,或者从输入序列中复制一个词
2)对于每个文档,扩展词汇表示词汇表的联合源文档中出现的所有单词,从扩展词汇表中获得以下概率分布
3.覆盖机制
1)覆盖矢量
c
t
c^t
ct,它是所有先前解码器时间步长上的注意分布的总和
2)模型输入
h
i
,
s
t
h_i,s_t
hi,st, 这确保了注意机制当前的决定(选择下一个参加者)通过提醒其先前的决定(在
c
t
c^t
ct中总结)
3)损失函数定义
结论
这篇论文提出了一个具有覆盖范围的混合指针生成器架构,它可以减少不准确性和重复性。模型将应用于一个新的具有挑战性的长篇文本数据集,并且显著优于抽象的最新结果,其展示了许多抽象的能力,但获得更高的抽象水平仍然是一个开放的研究问题。
扫码识别关注,获取更多论文解读