【PyTorch】torch.nn.GRU 类：门控循环单元

彬彬侠

已于 2025-02-09 18:12:33 修改

阅读量1.3k

点赞数 40

分类专栏： PyTorch基础文章标签： GRU NLP 自然语言处理 pytorch python

于 2025-02-05 11:18:09 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/145451837

版权

PyTorch基础专栏收录该内容

101 篇文章

订阅专栏

PyTorch中的 `torch.nn.GRU`

GRU（Gated Recurrent Unit）是 循环神经网络（RNN）的一种变种，常用于处理序列数据。与传统的RNN相比，GRU引入了 门控机制，旨在解决长序列训练中的梯度消失问题，并提高了训练效率和性能。

在PyTorch中，torch.nn.GRU 是一个非常方便的模块，用于构建和训练GRU网络。

1. `torch.nn.GRU` 的定义

GRU 是 torch.nn 中的一个层（Layer），用于构建一个多层的GRU模型。它的作用是将输入的序列数据通过GRU单元进行处理，输出隐藏状态。

torch.nn.GRU(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False, batch_first=False)

参数说明：

input_size（int）：输入特征的维度。即每个时间步的输入数据的特征数。
hidden_size（int）：隐藏状态的维度。即每个时间步的隐藏状态的大小。
num_layers（int，默认值：1）：GRU的层数。即堆叠的GRU层数。
bias（bool，默认值：True）：是否使用偏置项。
batch_first（bool，默认值：False）：如果为True，则输入和输出的张量形状为 (batch, seq_len, input_size)；否则形状为 (seq_len, batch, input_size)。即指定输入数据的维度顺序。
dropout（float，默认值：0）：在多个GRU层之间应用的dropout概率，只有当 num_layers > 1 时有效。
bidirectional（bool，默认值：False）：如果为True，则GRU是双向的。即输出不仅考虑从左到右的时间序列，还会反向传播从右到左的信息。

2. `GRU` 的工作原理

GRU单元通过 门控机制 来控制信息的流动和更新，避免了传统RNN在长序列处理中的梯度消失问题。GRU有两个主要的门：

更新门（Update Gate）：控制当前状态与过去状态的混合程度，决定保留多少过去的信息。
重置门（Reset Gate）：决定在计算当前时间步的隐藏状态时，应该忽略多少过去的信息。

GRU的基本更新公式如下：

$\begin{aligned} r_t &= \sigma(W_r x_t + U_r h_{t-1} + b_r) \quad \text{(reset gate)} \\ z_t &= \sigma(W_z x_t + U_z h_{t-1} + b_z) \quad \text{(update gate)} \\ \tilde{h}_t &= \tanh(W_h x_t + U_h (r_t \circ h_{t-1}) + b_h) \quad \text{(candidate hidden state)} \\ h_t &= (1 - z_t) \circ h_{t-1} + z_t \circ \tilde{h}_t \quad \text{(final hidden state)} \end{aligned}$

其中：

$r_t$ 是重置门。
$z_t$ 是更新门。
$\tilde{h}_t$ 是候选隐藏状态。
$h_t$ 是当前时刻的隐藏状态。

3. `GRU` 的输入和输出

输入：

输入数据是一个形状为 (seq_len, batch_size, input_size) 的张量，其中：
- seq_len：序列的长度（时间步数）。
- batch_size：批次的大小。
- input_size：每个时间步的输入特征数。

输出：

GRU输出有两个部分：
1. output：形状为 (seq_len, batch_size, hidden_size) 的张量，包含了每个时间步的输出隐藏状态。
2. h_n：形状为 (num_layers * num_directions, batch_size, hidden_size) 的张量，表示所有时间步的最终隐藏状态。

示例：

import torch
import torch.nn as nn

# GRU参数
input_size = 10
hidden_size = 20
num_layers = 2
seq_len = 5
batch_size = 3

# 初始化GRU层
gru = nn.GRU(input_size, hidden_size, num_layers)

# 输入数据：序列长度 = 5，批次大小 = 3，每个时间步的输入特征为 10
input_data = torch.randn(seq_len, batch_size, input_size)

# GRU输出
output, h_n = gru(input_data)

# 输出形状
print("Output shape:", output.shape)  # 输出形状 (seq_len, batch_size, hidden_size)
print("Hidden state shape:", h_n.shape)  # 输出形状 (num_layers, batch_size, hidden_size)

输出：

Output shape: torch.Size([5, 3, 20])
Hidden state shape: torch.Size([2, 3, 20])

output：在每个时间步上都有一个隐藏状态输出，形状为 (seq_len, batch_size, hidden_size)。
h_n：最终的隐藏状态，形状为 (num_layers, batch_size, hidden_size)。

4. 相关参数说明

`num_layers`：

GRU层的堆叠层数。多个GRU层的堆叠可以让模型学习更加复杂的模式。堆叠的层数增加时，模型的容量和表达能力也会增强，但计算和训练的复杂度也会增加。

`bidirectional`：

通过设置 bidirectional=True，GRU将变为双向，即同时考虑从左到右和从右到左的信息。双向GRU的输出维度会翻倍，因为它会生成两个方向的隐藏状态。

gru = nn.GRU(input_size, hidden_size, bidirectional=True)

`batch_first`：

决定输入和输出的张量形状。默认情况下，输入形状是 (seq_len, batch_size, input_size)，如果 batch_first=True，输入形状将变为 (batch_size, seq_len, input_size)。

5. GRU的应用

时间序列预测：GRU可以有效地处理时间序列数据，并用于预测下一时刻的值。
自然语言处理：GRU广泛应用于文本生成、机器翻译、语音识别等任务。
语音识别：GRU能够处理变长的语音信号，并能够学习语音中的时序特征。
强化学习：在处理带有长期依赖的任务时，GRU有助于保持历史信息。

总结

GRU（Gated Recurrent Unit）是RNN的改进版本，具有 更新门 和 重置门，解决了传统RNN的梯度消失问题。
torch.nn.GRU 是PyTorch中的一个模块，用于构建GRU层，支持单层或多层GRU堆叠，支持双向GRU。
参数：input_size、hidden_size、num_layers、batch_first、dropout 等用于控制GRU的结构和行为。
应用：GRU广泛用于序列建模、时间序列预测、自然语言处理等任务，特别适合长序列数据。