seq2seq模型理解

本文深入探讨seq2seq模型,包括Encoder和Decoder的原理,训练过程中的多分类交叉熵损失,预测阶段的Beam Search策略,以及Attention机制。通过实例解释了如何将one-hot向量转换为词向量,以及如何在Decoder中引入word embedding。同时,还介绍了深度RNN结构的相关知识。
摘要由CSDN通过智能技术生成

声明:本文在paddle book NMT一节的基础上进行了补充,解释decoder cost、attention模型中的对齐公式、decoder引入word embedding,以及深层RNN的一种方式。

一、模型结构图

这里写图片描述

二、Encoder

编码阶段分为三步:

  1. one-hot vector表示:将源语言句子的每个词表示成一个列向量,这个向量的维度与词汇表大小相同,并且只有一个维度上有值1其余全是0。
  2. 映射到低维语义空间的词向量:one-hot vector表示存在两个问题,
    1) 生成的向量维度往往很大,容易造成维数灾难;
    2) 难以刻画词与词之间的语义关系。
  3. 用RNN编码源语言词序列,隐向量更新公式如下:
    hi=Φθ(hi1,si)

    整句话的向量表示可以采用h在最后一个时间步T的状态编码,或使用时间维上的池化(pooling)结果。

三、Decoder

A. 训练过程 多分类交叉熵
  1. 每一个时刻,根据源语言句子的编码信息c、真实目标语言序列的第i个词ui和i时刻RNN的隐层状态zi,计算出下一个隐层状态zi+1
    zi+1=Φθ(c,ui,zi)

    实际上,真正计算 z
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值