torch.nn中GRU使用

最新推荐文章于 2024-05-04 10:51:38 发布

就是一顿骚操作

最新推荐文章于 2024-05-04 10:51:38 发布

阅读量3.1k

点赞数 1

分类专栏： pytorch 个人学习笔记——初版文章标签： gru 深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_36893273/article/details/127242817

版权

个人学习笔记——初版同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

pytorch

5 篇文章 1 订阅

订阅专栏

一、pytorch中GRU实现原理：

对于输入序列中的每个元素，每层计算以下函数：
$r_t=\sigma(W_{ir}x_t + b_{ir} + W_{hr}h_{(t-1)} + b_{hr})$
$z_t=\sigma(W_{iz}x_t + b_{iz} + W_{hz}h_{(t-1)} + b_{hz})$
$n_t=tanh(W_{in}x_t + b_{in} +r_t*(W_{hn}h_{(t-1)}) + b_{hn})$
$h_t=(1-z_t)*n_t + z*h_{(t-1)}$
其中各个变量的含义如下：

$h_t$ ：是在t时间步的hidden state
$x_t$ ：是在t时间步的输入
$h_{(t-1)}$ ：是上个时间步的hidden state 或者初始化的hidden state
$r_t$ ， $z_t$ 是重置门，更新门

二、参数

1.初始化参数

input_size：输入x的维度
hidden_size：hidden state 的维度
num_layers：GRU堆叠层数，设置num_layers=2 的话，表示堆叠两层GRU到一起，第二个 GRU 接收第一个 GRU的输出并计算最终结果；默认为1
bias：如果是False，将不再加入 b_ih和b_hh，默认为True
batch_first：如果为True，则输入和输出的tensors的维度为(batch,seq,feature)而不是(seq,batch,feature)。注意：此标识只对output有效，对hidden state 和 cell state无效，默认为False
dorpout：如果为非0，在每个 GRU 层（最后一层除外）的输出上引入一个dropout层，dropout概率等于此参数值。默认值：0，只对多层GRU有效。
bidirectional：如果为True，则是双向GRU，默认为False

2.forward入参

input：单个样本(unbatched)输入，则形状为 $L, H_{in})$ ；batch_first=False则输入的形状为 $L,N,H_{in})$ ；当batch_first=True时，形状为 $N,L,H_{in})$ ，输入也可以是打包的可变长度序列。
h_0：单个样本(unbatched)输入，形状为 $D*num_layers, H_out)$ ；batch样本输入，则形状为 $D*num_layers, N, H_out)$ 也就是初始化的hidden state.
其中：
N=batch size
L=sequence length
D=2 if bidirectional=True otherwise 1
$H_{in}$ =input_size
$H_{out}$ =hidden_size

3.输出

output：单个样本(unbatched)输入，则形状为 $L, D*H_{out})$ ；batch_first=False，则形状为 $L,N,D*H_{out})$ ；batch_first=True，则形状为 $N,L,D*H_{out})$ 。输入也可以是打包的可变长度序列。参考packedtorch.nn.utils.rnn.pack_padded_sequence() h或者torch.nn.utils.rnn.pack_sequence() 方法。
h_0：单个样本(unbatched)输入，形状为 $D*num_layers, H_out)$ ；batch样本输入，则形状为 $D*num_layers, N, H_out)$ ,包含序列中每个元素的最终隐藏状态。当双向 = True 时，h_n将分别包含最终正向和反向隐藏状态的串联。

三、实例

rnn = nn.GRU(10, 20, 2)# embedding_size, hidden_size, num_layer
input = torch.randn(5, 3, 10)# sequence length, batch size, embedding_size
h0 = torch.randn(2, 3, 20)# num_layer*dirc, batch size, hidden_size
output, hn = rnn(input, h0)
output.shape
torch.Size([5, 3, 20])# sequence length, batch size, hidden_size