从Seq2Seq到transformer

最新推荐文章于 2024-06-27 17:55:38 发布

Meredith_Leaf

最新推荐文章于 2024-06-27 17:55:38 发布

阅读量506

点赞数

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/Meredith_Leaf/article/details/116987977

版权

本文详细介绍了Seq2Seq模型的encoder-decoder结构，包括如何利用RNN进行编码和解码，并探讨了Attention机制如何改进Seq2Seq模型。接着，重点讲述了Transformer的核心组件self-attention和multi-head attention，以及其如何解决RNN和CNN的局限性，展示了Transformer的编码器和解码器结构。

摘要由CSDN通过智能技术生成

Seq2Seq

Seq2Seq模型是输出的长度不确定时采用的模型。

seq2seq属于encoder-decoder结构的一种，这里看看常见的encoder-decoder结构，基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码。decoder则负责根据语义向量生成指定的序列，这个过程也称为解码。

获取语义向量的一种方式是直接将最后一个输入的隐藏状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量，还可以将输入序列的所有隐含状态做一个变换得到语义变量。

一种decoder的方式是将encoder得到的语义变量作为初始状态输入到decoder的RNN中，得到输出序列，上一时刻的输出会作为当前时刻的输入，而且其中语义向量C只作为初始状态参与运算，后面的运算都与语义向量C无关；另外一种是语义向量C参与了序列所有时刻的运算，上一时刻的输出作为当前时刻的输入，且语义向量C会参与所有时刻的运算。

所以模型的关键在于向量C能否很好的表达encode过程中序列的信息。

Attention+ Seq2Seq

当输入句子很长的时候，encoder的效果会很差，利用隐状态(context向量)来编码输入句子的语义实际上是很困难的。为了解决这个问题，Bahdanau等人提出了注意力机制(attention mechanism)。于是在Decoder进行t时刻计算的时候，除了t-1时刻的隐状态，当前时刻的输入，注意力机制还可以参考Encoder所有时刻的输入。

其中α01是h01对应的权重，对所有权重α0进行softmax后得到α0，α0和h0加权求和，得到c0。

α的计算：αts= score(ht,hs)

α的计算：αts=⁡exp(score(ht,hs))s'=1Sexp(score(ht,hs'))

最低0.47元/天解锁文章

Meredith_Leaf

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
从Seq2Seq到transformer

Seq2SeqSeq2Seq模型是输出的长度不确定时采用的模型。seq2seq属于encoder-decoder结构的一种，这里看看常见的encoder-decoder结构，基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码。decoder则负责根据语义向量生成指定的序列，这个过程也称为解码。获取语义向量的一种方式是直接将最后一个输入的隐藏状态作为语义向
复制链接

扫一扫