#Paper Reading# Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

论文题目:Abstractive Sentence Summarization with Attentive Recurrent Neural Networks
论文地址:http://anthology.aclweb.org/N/N16/N16-1012.pdf
论文发表于:NAACL 2016(CCF C类,CORE A类,QUALIS A1类)

论文大体内容:
本文使用一种conditional RNN来生成摘要,条件是卷积注意力模型(convolutional attention-based encoder),用来确保每一步生成词的时候都可以聚焦到合适的输入上。模型仅仅依赖于学习到的features,并且很容易在大规模数据上进行end2end式地训练,并且在Gigaword语料上和DUC-2004任务中取得了更好的效果。

1、本文关注点在于单个句子,进行abstractive式摘要;

2、输入X: X(1), X(2), …, X(M), 长度为M;
输出Y: Y(1), Y(2), …, Y(N), 长度为N, N大小固定;
词典V;

3、Loss function如下
这里写图片描述

4、Encoder
输入句子每个词最终的embedding是各词的embedding与各词位置的embedding之和,经过一层卷积处理得到aggregate vector:
这里写图片描述
根据aggregate vector计算context(encoder的输出):
这里写图片描述
其中权重由下式计算:
这里写图片描述

5、Decoder
decoder的部分是一个RNNLM,这里的RNN Hidden Layer使用的是LSTM单元。decoder的输出由下式计算:
这里写图片描述
其中c(t)是encoder的输出,h(t)是RNN隐藏层,由下式计算:
这里写图片描述
这里隐藏层的单元有两种思路,一种是常规的Elman RNN,一种是LSTM;
这里写图片描述

这里写图片描述

6、Generating Summaries
在测试集中,本文使用Beam Search的方法进行生成摘要,时间复杂度为O(KNV);
Beam Search(集束搜索)[2]使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数(Beam Width-集束宽度)的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。如果集束宽度无穷大,那该搜索就是宽度优先搜索。
①将初始节点插入到list中;
②将给节点出堆,如果该节点是目标节点,则算法结束;
③否则扩展该节点,取集束宽度的节点入堆。然后到第二步继续循环;
④算法结束的条件是找到最优解或者堆为空;

实验
7、Dataset
经过处理的约400万Gigaword数据集[3]作为训练集和验证集,在DUC2004数据集上进行评测;

8、评测方法
①ROUGE-1;
②ROUGE-2;
③ROUGE-L;

9、Baseline
①ABS;
②ABS+;

10、对比结果
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

参考资料:
[1]、https://zhuanlan.zhihu.com/p/21388469
[2]、http://www.cnblogs.com/xxey/p/4277181.html
[3]、https://catalog.ldc.upenn.edu/LDC2012T21

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 卷积神经网络 (Convolutional Neural Networks, CNN) 是一种常用于文本分类的深度学习模型。它通过卷积和池化层来提取文本中的特征,并使用全连接层来进行分类。 CNN 的一个优点是能够处理变长的输入,并且不需要对文本进行预处理。 ### 回答2: 卷积神经网络是一种深度学习方法,用于对文本进行分类。在训练过程中,这种网络可以自动学习输入数据的特征表示。卷积神经网络中的卷积层可以识别输入中的局部模式,这些局部模式组合起来形成更高级别的特征,最终帮助分类器确定类别。对于文本分类问题,卷积神经网络的输入是文本的词嵌入向量,可以从先验知识中自动学习特征。 在一些文本分类任务中,卷积神经网络已经取得了很好的表现。文本分类任务通常被分为两种类型:二元分类和多分类。二元分类任务是指将数据分为两类,例如垃圾邮件和非垃圾邮件。多类分类任务是指将数据分为多类,例如新闻分类。在这两种任务中,卷积神经网络都能够进行有效的分类。 对于二元分类任务,卷积神经网络可以使用一个输出节点,并使用 sigmoid 激活函数将输入映射到 0 到 1 之间的概率。对于多分类任务,卷积神经网络可以使用多个输出节点,每个节点对应一个类别,并使用 softmax 激活函数将输入映射到 0 到 1 之间,并且所有输出节点的和为 1。 要训练卷积神经网络进行文本分类,需要对模型进行三个主要的训练步骤。首先,需要构建词嵌入矩阵,该矩阵将文本中的每个词都映射到一个向量。然后,需要将文本数据转换为卷积神经网络所需的格式。最后,需要对模型进行训练,并根据测试数据进行评估。 总之,卷积神经网络已经被证明是一种强大的工具,可以用于文本分类等任务。在处理文本数据时,卷积神经网络可以自动学习输入数据的特征表示,并使用这些特征来确定文本的类别。 ### 回答3: 卷积神经网络(CNN)是一种深度学习模型,它在图像识别、计算机视觉和自然语言处理中表现出色。最近几年,CNN 在句子分类中也获得了很大的成功。 CNN 句子分类模型的输入是一个序列,输出是类别标签。与传统的 RNN 模型不同之处在于,CNN 可以使每个神经元只能捕获一个固定大小的区域的特征,从而加快模型的训练和降低了模型的复杂度。 CNN 句子分类模型的基本架构包括词嵌入层、卷积层、池化层和全连接层。词嵌入层将输入的文本转化为向量表示。卷积层通过滑动窗口对输入的序列进行卷积操作,提取出局部特征。池化层在每个滑动窗口上提取出一个最大值或平均值,进一步降低维度。最后,全连接层将提取出的特征传递到输出层进行分类。 CNN 句子分类模型的优点在于它可以处理不定长的文本序列,并在仅有少量特征的情况下表现出色。但是,CNN 模型的缺点在于不善于处理长期依赖关系,例如情感分析中的Irony识别。为了解决这个问题,可以引入 RNN 或 Transformer 等模型。 总的来说,CNN 模型为句子分类问题提供了一个简单有效的解决方案。在实践中,需要根据具体的任务选择合适的模型结构和参数设置,才能取得最佳效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值