#Paper Reading# Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

最新推荐文章于 2020-07-07 15:13:28 发布

John159151

最新推荐文章于 2020-07-07 15:13:28 发布

阅读量1.6k

点赞数

分类专栏： paper reading ADS

本文链接：https://blog.csdn.net/John159151/article/details/73012625

版权

paper reading 同时被 2 个专栏收录

99 篇文章 4 订阅

订阅专栏

ADS

11 篇文章 0 订阅

订阅专栏

论文题目：Abstractive Sentence Summarization with Attentive Recurrent Neural Networks
论文地址：http://anthology.aclweb.org/N/N16/N16-1012.pdf
论文发表于：NAACL 2016(CCF C类，CORE A类，QUALIS A1类)

论文大体内容：
本文使用一种conditional RNN来生成摘要，条件是卷积注意力模型（convolutional attention-based encoder），用来确保每一步生成词的时候都可以聚焦到合适的输入上。模型仅仅依赖于学习到的features，并且很容易在大规模数据上进行end2end式地训练，并且在Gigaword语料上和DUC-2004任务中取得了更好的效果。

1、本文关注点在于单个句子，进行abstractive式摘要；

2、输入X: X(1), X(2), …, X(M), 长度为M；
输出Y: Y(1), Y(2), …, Y(N), 长度为N, N大小固定；
词典V；

3、Loss function如下
这里写图片描述

4、Encoder
输入句子每个词最终的embedding是各词的embedding与各词位置的embedding之和，经过一层卷积处理得到aggregate vector：
这里写图片描述
根据aggregate vector计算context（encoder的输出）：

其中权重由下式计算：

5、Decoder
decoder的部分是一个RNNLM，这里的RNN Hidden Layer使用的是LSTM单元。decoder的输出由下式计算：
这里写图片描述
其中c(t)是encoder的输出，h(t)是RNN隐藏层，由下式计算：

这里隐藏层的单元有两种思路，一种是常规的Elman RNN，一种是LSTM；

这里写图片描述

6、Generating Summaries
在测试集中，本文使用Beam Search的方法进行生成摘要，时间复杂度为O(KNV)；
Beam Search（集束搜索）[2]使用广度优先策略建立搜索树，在树的每一层，按照启发代价对节点进行排序，然后仅留下预先确定的个数（Beam Width-集束宽度）的节点，仅这些节点在下一层次继续扩展，其他节点就被剪掉了。如果集束宽度无穷大，那该搜索就是宽度优先搜索。
①将初始节点插入到list中；
②将给节点出堆，如果该节点是目标节点，则算法结束；
③否则扩展该节点，取集束宽度的节点入堆。然后到第二步继续循环；
④算法结束的条件是找到最优解或者堆为空；

实验
7、Dataset
经过处理的约400万Gigaword数据集[3]作为训练集和验证集，在DUC2004数据集上进行评测；

8、评测方法
①ROUGE-1；
②ROUGE-2；
③ROUGE-L；

9、Baseline
①ABS；
②ABS+；

10、对比结果
这里写图片描述

参考资料：
[1]、https://zhuanlan.zhihu.com/p/21388469
[2]、http://www.cnblogs.com/xxey/p/4277181.html
[3]、https://catalog.ldc.upenn.edu/LDC2012T21

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

John159151

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#Paper Reading# Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

论文大体内容：本文使用一种conditional RNN来生成摘要，条件是卷积注意力模型（convolutional attention-based encoder），用来确保每一步生成词的时候都可以聚焦到合适的输入上。模型仅仅依赖于学习到的features，并且很容易在大规模数据上进行end2end式地训练，并且在Gigaword语料上和DUC-2004任务中取得了更好的效果。
复制链接

扫一扫