Transfomer完整学习笔记一：Encoder-Decoder，Seq2Seq

最新推荐文章于 2024-05-08 09:29:02 发布

StarfishCu

最新推荐文章于 2024-05-08 09:29:02 发布

阅读量550

点赞数

分类专栏： DL概念文章标签： sequence

本文链接：https://blog.csdn.net/StarfishCu/article/details/108885334

版权

本文详细介绍了Transformer模型的基础——Seq2Seq结构与Encoder-Decoder原理。通过机器翻译任务实例，解释了Encoder如何将不定长输入转化为定长背景变量，Decoder如何结合Encoder的输出和自身状态生成不定长输出。文章还讨论了单向和双向RNN在Encoder中的应用。

摘要由CSDN通过智能技术生成

最近常看到transformer框架下的论文，且知道transformer势头大盛，但对transformer缺乏了解，所以就记录下关于transformer的完整学习过程，从最基本的部分开始学习这里做以记录。

本篇学习笔记主要参考这篇blog

什么是seq2seq& encoder-decoder

常见的应用场景为nlp问题。以机器翻译为例：
英语输⼊：“They”、“are”、“watching”、“.”
法语输出：“Ils”、“regardent”、“.”
我们的目标就是完成这个翻译任务。而在翻译任务中，输入和输出是不定长的。用于分析处理不定长输入的RNN网络即encoder，用于生成不定长输出的RNN网络即decoder。这二者共同构成的结构即Seq2Seq，并同时进行训练。
在这里插入图片描述
如图描述了这个机器翻译任务的实现过程。蓝色部分为编码器，eos意为end of seq代表输入的结束。每个时间段t对encoder的输入即要翻译的句子的一个单词或标点或eos。在这个图中，将encoder的最终状态（即输入完eos）作为整个输入的representation。而每个时间片都以前一个时间片的状态和当前输入为输入。
右侧白色部分为decoder，bos意为begin of seq代表输出的开始。每个decoder

最低0.47元/天解锁文章

StarfishCu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transfomer完整学习笔记一：Encoder-Decoder，Seq2Seq

最近常看到transformer框架下的论文，且知道transformer势头大盛，但对transformer缺乏了解，所以就记录下关于transformer的完整学习过程，从最基本的部分开始学习这里做以记录。Encoder-Decoder，Seq2Seq什么是seq2seq& encoder-decoderEncoderDecoder本篇学习笔记主要参考这篇blog什么是seq2seq& encoder-decoder常见的应用场景为nlp问题。以机器翻译为例：英语输⼊：“The
复制链接

扫一扫

专栏目录