Pytorch LSTM函数参数解释图解

最新推荐文章于 2025-04-17 19:43:37 发布

年年年年年

最新推荐文章于 2025-04-17 19:43:37 发布

阅读量3.7k

点赞数 8

分类专栏： pytorch LSTM 文章标签：自然语言处理 lstm

本文链接：https://blog.csdn.net/weixin_42142630/article/details/114638812

版权

pytorch 同时被 2 个专栏收录

1 篇文章

订阅专栏

LSTM

1 篇文章

订阅专栏

Pytorch LSTM函数参数解释图解

torch.nn.LSTM函数
图解LSTM函数
引用图片

笔者最近在写有关LSTM的代码，但是对于nn.LSTM函数中的有些参数还是不明白其具体含义，学习过后在此记录。

为了方便说明，我们先解释函数参数的作用，接着对应图片来说明每个参数的具体含义。

torch.nn.LSTM函数

LSTM的函数

class torch.nn.LSTM(args, *kwargs)
	# 主要参数
	# input_size – 输入的特征维度
	# hidden_size – 隐状态的特征维度
	# num_layers – 层数（和时序展开要区分开）
	# bias – 如果为False，那么LSTM将不会使用偏置，默认为True。
	# batch_first – 如果为True，那么输入和输出Tensor的形状为(batch, seq_len, input_size)
	# dropout – 如果非零的话，将会在RNN的输出上加个dropout，最后一层除外。
	# bidirectional – 如果为True，将会变成一个双向RNN，默认为False。

LSTM的输入维度为 (seq_len, batch, input_size) 如果batch_first为True，则输入形状为(batch, seq_len, input_size)
seq_len是文本的长度;
batch是批次的大小;
input_size是每个输入的特征纬度（一般是每个字/单词的向量表示;

LSTM的输出维度为 (seq_len, batch, hidden_size * num_directions)
seq_len是文本的长度;
batch是批次的大小;
hidden_size是定义的隐藏层长度
num_directions指的则是如果是普通LSTM该值为1; Bi-LSTM该值为2

当然，仅仅用文本来说明则让人感到很懵逼，所以我们使用图片来说明。

图解LSTM函数

我们常见的LSTM的图示是这样的：
LSTM常见说明
但是这张图很具有迷惑性，让我们不易理解LSTM各个参数的意义。具体将上图中每个单元展开则为下图所示：
在这里插入图片描述
input_size: 图1中 $x_i$ 与图2中绿色节点对应，而绿色节点的长度等于input_size（一般是每个字/单词的向量表示）。
hidden_size: 图2中黄色节点的数量
num_layers: 图2中黄色节点的层数（该图为1）