最近总结和几篇好文收录

最新推荐文章于 2024-05-13 17:28:29 发布

SpadeA_Iverxin

最新推荐文章于 2024-05-13 17:28:29 发布

阅读量117

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/109452031

版权

14 篇文章 2 订阅

订阅专栏

长短期记忆网络

图片来自上述博客

在应用的时候，我们只需要处理外部的三个变量 $h_t$ , $c_t$ , $x_t$

LSTM相关的有两个已经包装好的类 LSTM和LSTMCell

区别在于：

关于LSTM调用需要注意的是：

默认的输入时间步在第一维度，即：（time_step, batch_size, features_nums），在创建LSTM类时，可以指定batch_first=True来变成（ batch_size, time_step,features_nums）。在指定后，输出也会随之变化为batch_size在第一维度
在前向传播时，由于第一步，我们没有上一层的h0, c0, 可以将h0, c0不写，则默认为0，或者初始化为正态分布（效果可能会更好一点）
LSTM初始化可以指定多层，使用num_layers，默认为1
LSTM调用输出：output, (hn, cn) = rnn(input, (h0, c0))
- output : 包含每一层的h的值，最后一个就是hn (seq_len, batch, num_directions * hidden_size)
- hn: 最后一层的。如果是一维的，就在output的最后一个维度 (num_layers * num_directions, batch, hidden_size)
- cn: 最后一层的cn值

关于LSTMCell类注意的是：

Encoder和Decoder都可以是RNN， CNN， LSTM， GRU等。

这个知乎回答讲解的很好知乎回答

注意的是，我们使用LSTM做为decoder，在pytorch中需要使用LSTMCell来自己写过程。

关注