Attention详解

最新推荐文章于 2024-08-29 15:53:51 发布

mmfloatingdream

最新推荐文章于 2024-08-29 15:53:51 发布

阅读量924

点赞数 22

文章标签： lstm rnn 深度学习

本文链接：https://blog.csdn.net/m0_59592518/article/details/141318003

版权

1.Encoder-Decoder

1.1Encoder-Decoder简介

Encoder-Decoder是编码-解码框架，大部分attention模型都依附于Encoder-Decoder框架实现，在NLP中Encoder-Decoder框架主要被用来处理序列-序列问题。也就是输入一个序列，生成一个序列的问题。这两个序列可以分别是任意长度。具体到NLP中的任务比如：
文本摘要，输入一篇文章(序列数据)，生成文章的摘要(序列数据)
文本翻译，输入一句或一篇英文(序列数据)，生成翻译后的中文(序列数据)
问答系统，输入一个question（序列数据），生成一个answer（序列数据）
基于Encoder-Decoder框架具体使用什么模型实现，用的较多的就是seq2seq模型和Transformer。

1.2Encoder-Decoder结构原理

上图就是Encoder-Decoder框架在NLP领域中抽象后的最简单的结构图。
Encoder：编码器，对于输入的序列<x1,x2,x3…xn>进行编码，使其转化为一个语义编码C，这个C中就储存了序列<x1,x2,x3…xn>的信息。

Encoder究竟是如何编码的呢？
编码方式有很多种，在文本处理领域主要有RNN/LSTM/GRU/BiRNN/BiLSTM/BiGRU，可以依照自己的喜好来选择编码方式，不搞懂RNN/LSTM/GRU的原理，这个Encoder部分那肯定是看不懂地。
我们以RNN为例来具体说明一下：
以上图为例，输入<x1,x2,x3,x4>，通过RNN生成隐藏层的状态值<h1,h2,h3,h4>，如何确定语义编码C呢？最简单的办法直接用最后时刻输出的ht作为C的状态值，这里也就是可以用h4直接作为语义编码C的值，也可以将所有时刻的隐藏层的值进行汇总，然后生成语义编码C的值，这里就是C=q(h1,h2,h3,h4)，q是非线性激活函数。
得到了语义编码C之后，接下来就是要在Decoder中对语义编码C进行解码了。

Decoder：解码器，根据输入的语义编码C，然后将其解码成序列数据，解码方式也可以采用RNN/LSTM/GRU/BiRNN/BiLSTM/BiGRU。Decoder和Encoder的编码解码方式可以任意组合，并不是说我Encoder使用了RNN，Decoder就一定也需要使用RNN才能解码，Decoder可以使用LSTM，BiRNN这些。

Decoder究竟是如何解码的呢？
基于seq2seq模型有两种解码方式：

[论文1]Cho et al., 2014 . Learning Phrase Representations using RNN Encoder-Decoder for Statistical