阅读笔记--《Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond》

本文深入探讨了Seq2Seq模型及Attention机制在自然语言处理领域的应用,详细介绍了基准模型的特点,以及如何通过Attention机制改善长序列处理的准确性。同时,文章还介绍了论文中的创新点,包括大型词汇技巧、特征丰富的编码器、开关生成器/指针机制以及对Attention机制的层级改进。
摘要由CSDN通过智能技术生成

本文主要是对论文中的算法技巧和创新点进行总结介绍,借鉴了一些博主的文章也有一些自己的理解。

一、论文的基准模型

参考 https://blog.csdn.net/dcrmg/article/details/80327069

Sequence-to-Sequence

Seq2Seq是一类End-to-End算法框架,是从序列到序列转换模型框架,一般是通过Encoder-Decoder(编码/解码)模型实现的,是这篇论文的基准模型。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN、RNN、LSTM、GRU、BLSTM等等。

Encoder将输入的序列转化成一个固定长度的向量(文中采用双向RNN)
Decoder将之前生成的固定向量再转化成输出序列(文中采用单向RNN)

Attention mechanism

在传统的Encoder-Decoder结构中,准确率很大程度上依赖于Encoder生成的固定向量,即解码时每个时刻用到的context vector都是相同的。当输入序列较长时,模型的性能会变得很差,因为固定长度的向量难以保留全部的必要信息。
而在Attention机制中,每个时刻用到的context vector是跟当前输出有关系的上下文,而不是固定的只用一个(注意力集中在与当前输出有关的元素上,而不是全文都要考虑),可以更具针对性的产生预测结果。
Attention-based model
Attention机制的实现原理参考台大的李宏毅老师的讲解Conditional Generation by RNN & Attention

二、论文中的创新点和技巧应用

参考 https://blog.csdn.net/imsuhxz/article/details/82589606

Large Vocabulary Trick (LVT)

该技巧源自论文《On Using Very Large Target Vocabulary for Neural Machine Translation》
LVT重点解决由于Decoder词汇表过大造成的softmax层计算瓶颈,降低空间上的开销。

Feature-rich Encoder

个人认为这是论文中一个比较重要的创新点,融入了word feature包括单词的词性标注(part-of-speech),命名实体标签(named-entity tags)以及TF(词频)和IDF(逆文本频率),对Encoder的输入构建了一祖新的具有多个维度的词嵌入(word embedding),这些维度上的意义对于摘要的生成至关重要。
Feature-rich-encoder

Switching Generator/Pointer

文摘中会遇到一些低频但很重要或者OOV的词,这个开关解决了这类问题,开关的模型是一个linear layer中的sigmoid激活函数,根据上下文计算开关打开Generator的概率,然后根据概率改变开关状态,如果是Generator就产生一个单词,如果是Pointer就生成一个指向原文单词位置的指针,然后拷贝到摘要中。

对基准模型实施等级制度(Hierarchical)

这里实际上是对Attention机制的改进,文中分了两个等级:word-levelsentence-level,既考虑了Encoder中每个单词对于Decoder的重要性,又考虑了这个单词所在句子对Decoder的重要性,从而在两个等级层次上重新定义Attention机制中的权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>