seq2seq(DPL)

最新推荐文章于 2024-08-12 18:49:54 发布

饮尽夏日

最新推荐文章于 2024-08-12 18:49:54 发布

阅读量56

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/CrazySummerdrink/article/details/134541482

版权

15 篇文章 0 订阅

订阅专栏

Seq2Seq其实就是Encoder-Decoder结构的网络，它的输入是一个序列，输出也是一个序列。在Encoder中，将序列转换成一个固定长度的向量，然后通过Decoder将该向量转换成我们想要的序列输出出来。

Encoder和Decoder一般都是RNN，通常为LSTM或者GRU。
- 在Encoder中，“欢迎/来/北京”这些词转换成词向量，也就是Embedding，我们用 $v_i$ 来表示，与上一时刻的隐状态 $h_{i-1}$ 按照时间顺序进行输入，每一个时刻输出一个隐状态 $h_i$ ，我们可以用函数 $f$ 表达RNN隐藏层的变换： $h_i=f(v_i,h_{i-1})$ 。
  假设有t个词，最终通过Encoder自定义函数将q各时刻的隐状态变换为向量c： $c=q(h_0,...,h_t)$ ，这个c就相当于从“欢迎/来/北京”这几个单词中提炼出来的大概意思一样，包含了这句话的含义。
- Decoder的每一时刻的输入为Encoder的输出c和Decoder前一时刻解码的输出 $s_{i-1}$ ，还有前一时刻预测的词的向量 $E_{i-1}$ ，（如果是预测第一个词的话，此时输入的词向量为“_GO”的词向量，标志着解码的开始）我们可以用函数g表达解码器隐藏层变换：
  $s_i = g(c,s_{i-1},E_{i-1})$ 。直到解码出“_EOS”，标志着解码的结束。
在基础的模型中，Decoder的每一次解码又会作为下一次解码的输入，这样就会导致一个问题就是错误累计，如果其中一个RNN单元解码出现误差了，那么这个误差就会传递到下一个RNN单元，使训练结果误差越来越大。

关注

专栏目录