Encoder-Decoder 模型架构详解

最新推荐文章于 2024-04-14 12:00:25 发布

m0_54850825

最新推荐文章于 2024-04-14 12:00:25 发布

阅读量370

点赞数

分类专栏：面试学习路线阿里巴巴文章标签： transformer 深度学习自然语言处理开发语言几何学

本文链接：https://blog.csdn.net/m0_54850825/article/details/125127885

版权

本文详细介绍了Encoder-Decoder模型架构，包括Seq2Seq模型、Encoder-Decoder的缺陷及Attention机制的引入。Transformer中的Encoder-Decoder使用了Self-Attention和Multi-Head Attention，解决了长序列信息丢失的问题，增强了并行计算能力。

摘要由CSDN通过智能技术生成

概述

Encoder-Decoder 并不是一个具体的模型，而是一个通用的框架。
Encoder 和 Decoder 部分可以是任意文字，语音，图像，视频数据
模型可以是 CNN，RNN，LSTM，GRU，Attention 等等
所谓编码，就是将输入序列转化转化成一个固定长度向量，解码，就是讲之前生成的固定向量再转化出输出序列。

注意点：

不管输入序列和输出序列长度是什么，中间的「向量 c」长度都是固定的。 这是Encoder-decoder框架的的缺点
不同的任务可以选择不同的编码器和解码器 (RNN，CNN，LSTM，GRU)。
Encoder-Decoder 是一个 End-to-End 的学习算法，以机器翻译为力，可以将法语翻译成英语。这样的模型也可以叫做 Seq2Seq。

Seq2Seq（ Sequence-to-sequence ）

输入序列和输出序列的长度是可变的
Seq2Seq 强调目的，不特指具体方法，满足输入序列，输出序列的目的，都可以统称为 Seq2Seq 模型。
Seq2Seq 使用的具体方法基本都是属于 Encoder-Decoder 模型的范畴。

For example
在这里插入图片描述

在训练数据集中，我们可以在每个句子后附特殊字符 ”“ (end of sequence) 以表示序列终止
每个句子前用到了特殊字符 “” (begin of seqence) 表示序列开始
Encoder 在最终时间步的隐状态作为输入句子表征和编码信息。？？
Decoder

最低0.47元/天解锁文章

m0_54850825

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Encoder-Decoder 模型架构详解

注意点：For example案例：英文 it is a cat. 翻译成中文的过程。→ 中间的「向量 c」长度都是固定的Attention 如何准确将注意力放在关注的地方呢？引入 Attention 的 Encoder-Decoder 框架下，完成机器翻译任务的大致流程如下：Attention 机制self-AttentionMulti-Head AttentionTransformer 中 Encoder 由 6 个相同的层组成，每个层包含 2 个部分：Decoder 也是由 6 个相同的层
复制链接

扫一扫

专栏目录