深度学习
文章平均质量分 86
HX_2022
这个作者很懒,什么都没留下…
展开
-
Seq2Seq模型实现(Decoder部分)
0、引言:承接上一篇,现在继续对于seq2seq模型进行讲解,decoder部分是和encoder部分对应的,层数、隐藏层、单元数都要对应。1、LSTM Seq2Seq DecoderDecoder只执行一个解码步骤。第一层将从前一个时间步接收隐藏和单元状态,并通过将当前的token 传给LSTM,进一步产生一个新的隐藏和单元状态。Decoder的初始隐藏和单元状态是我们的上下文向量,它们是来自同一层的Encoder的最终隐藏和单元状态。接下来将隐藏状态传递给Linear层,预测目标序列下一个标记应原创 2021-06-02 10:39:53 · 1714 阅读 · 1 评论 -
Seq2Seq模型实现(Encoder部分)
最近在做一个多特征多步输出预测的时间序列预测问题,我打算将机器翻译的seq2seq的理论用在预测上面,通过nlp领域的机器翻译,从一般LSTM Seq2Seq -> GRU Seq2Seq -> 基于注意力机制的 Seq2Seq,分别讲解基于pytorch深度学习框架实现Encoder部分的对比。关于序列到序列框架,在构建模型的时候,对Encoder和Decoder进行拆分,最后通过Seq2Seq整合,如果含有Attention机制,还需要增加attention模块。Encoder就是处理输原创 2021-05-13 11:28:30 · 1113 阅读 · 1 评论 -
长短期记忆神经网络lstm理论讲解
一、应用背景循环神经网络RNN的局限性,RNN工作原理如图: RNN利用了神经网络的“内部循环”来保留时间序列的上下文信息,可以使用过去的信号数据来推测对当前信号的理解,这是非常重要的进步,并且理论上RNN可以保留过去任意时刻的信息。但实际使用RNN时往往遇到问题,请看下面这个例子。假如我们构造了一个语言模型,可以通过当前这一句话的意思来预测下一个词语。现在有这样一句话:“我是一个中国人,出生在普通家庭,我最常说汉语,也喜欢写汉字。我喜欢妈妈做的菜”。我们的语言模型在预测“我最常说汉语”的“汉语原创 2020-09-09 16:41:10 · 1630 阅读 · 0 评论