Encoder-Decoder 模型架构详解

本文详细介绍了Encoder-Decoder模型架构,包括Seq2Seq模型、Encoder-Decoder的缺陷及Attention机制的引入。Transformer中的Encoder-Decoder使用了Self-Attention和Multi-Head Attention,解决了长序列信息丢失的问题,增强了并行计算能力。
摘要由CSDN通过智能技术生成

文章目录

概述

  • Encoder-Decoder 并不是一个具体的模型,而是一个通用的框架。
  • Encoder 和 Decoder 部分可以是任意文字,语音,图像,视频数据
  • 模型可以是 CNN,RNN,LSTM,GRU,Attention 等等
  • 所谓编码,就是将输入序列转化转化成一个固定长度向量, 解码,就是讲之前生成的固定向量再转化出输出序列。

注意点:

  1. 不管输入序列和输出序列长度是什么,中间的「向量 c」长度都是固定的。 这是Encoder-decoder框架的的缺点
  2. 不同的任务可以选择不同的编码器和解码器 (RNN,CNN,LSTM,GRU)。
  3. Encoder-Decoder 是一个 End-to-End 的学习算法,以机器翻译为力,可以将法语翻译成英语。这样的模型也可以叫做 Seq2Seq

Seq2Seq( Sequence-to-sequence )

  • 输入序列和输出序列的长度是可变的
  • Seq2Seq 强调目的,不特指具体方法,满足输入序列,输出序列的目的,都可以统称为 Seq2Seq 模型。
  • Seq2Seq 使用的具体方法基本都是属于 Encoder-Decoder 模型的范畴。

For example
在这里插入图片描述

  • 在训练数据集中,我们可以在每个句子后附特殊字符 ”“ (end of sequence) 以表示序列终止
  • 每个句子前用到了特殊字符 “” (begin of seqence) 表示序列开始
  • Encoder 在最终时间步的隐状态作为输入句子表征和编码信息。??
  • Decoder
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值