门控循环单元（GRU）

最新推荐文章于 2024-01-07 02:06:43 发布

Helloworld188888

最新推荐文章于 2024-01-07 02:06:43 发布

阅读量704

点赞数

分类专栏：深度学习 Python pytorch 文章标签： gru 深度学习机器学习

本文链接：https://blog.csdn.net/qq_24951479/article/details/130526935

版权

Python 同时被 3 个专栏收录

39 篇文章 3 订阅

订阅专栏

深度学习

37 篇文章 1 订阅

订阅专栏

pytorch

27 篇文章 1 订阅

订阅专栏

门控循环单元（GRU）

介绍

门控循环单元（Gated Recurrent Unit, GRU）是一种循环神经网络（Recurrent Neural Network, RNN）的变体，由Cho等人在2014年提出。相比于传统的RNN，GRU引入了门控机制，使得网络能够更好地捕捉长期依赖性，同时减少了梯度消失的问题。

本文将介绍GRU的方法历史、优点以及与其他方法的不同之处，并给出详细的理论推导过程和计算步骤。最后，我们将用PyTorch给出一个GRU的例子。

方法历史

在RNN中，每个时间步的输出都依赖于前一时刻的状态。然而，由于梯度消失的问题，传统的RNN很难处理长期依赖性。因此，一些方法被提出，如长短时记忆网络（Long Short-Term Memory, LSTM）和门控循环单元（GRU）。

GRU是由Cho等人在2014年提出的，它引入了门控机制，使得网络能够更好地捕捉长期依赖性，同时减少了梯度消失的问题。GRU的设计灵感来自于LSTM，但是GRU只有两个门（重置门和更新门），而LSTM有三个门（输入门、遗忘门和输出门），因此GRU的计算量更小。

方法优点

相比于传统的RNN，GRU有以下优点：

GRU引入了门控机制，使得网络能够更好地捕捉长期依赖性，同时减少了梯度消失的问题。
GRU的计算量比LSTM更小，因为它只有两个门（重置门和更新门）。

与其他方法的不同之处

相比于LSTM，GRU只有两个门（重置门和更新门），而LSTM有三个门（输入门、遗忘门和输出门）。因此，GRU的计算量更小，但是LSTM的表现可能更好。

理论推导过程

GRU的公式如下：

$\begin{aligned} r_t &= \sigma(W_r x_t + U_r h_{t-1} + b_r) \\ z_t &= \sigma(W_z x_t + U_z h_{t-1} + b_z) \\ \tilde{h}_t &= \tanh(W x_t + r_t \odot U h_{t-1} + b) \\ h_t &= (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t \end{aligned}$

其中， $x_t$ 是输入， $h_t$ 是输出， $r_t$ 是重置门， $z_t$ 是更新门， $\tilde{h}_t$ 是候选隐藏状态， $\odot$ 表示逐元素相乘， $\sigma$ 表示sigmoid函数， $\tanh$ 表示双曲正切函数， $W_r, U_r, b_r, W_z, U_z, b_z, W, U, b$ 是可学习的参数。

我们可以将上述公式分解为以下步骤：

计算重置门 $r_t$ ：

$r_t = \sigma(W_r x_t + U_r h_{t-1} + b_r)$

其中， $W_r, U_r, b_r$ 是可学习的参数。

计算更新门 $z_t$ ：

$z_t = \sigma(W_z x_t + U_z h_{t-1} + b_z)$

其中， $W_z, U_z, b_z$ 是可学习的参数。

计算候选隐藏状态 $\tilde{h}_t$ ：

$\tilde{h}_t = \tanh(W x_t + r_t \odot U h_{t-1} + b)$

其中， $W, U, b$ 是可学习的参数。

计算隐藏状态 $h_t$ ：

$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

其中， $\odot$ 表示逐元素相乘。

计算步骤

下面我们将给出一个GRU的计算步骤：

初始化 $h_0$ 为零向量。
对于每个时间步 $t$ ，执行以下操作：
1. 计算重置门 $r_t$ ：
  
  $r_t = \sigma(W_r x_t + U_r h_{t-1} + b_r)$
2. 计算更新门 $z_t$ ：
  
  $z_t = \sigma(W_z x_t + U_z h_{t-1} + b_z)$
3. 计算候选隐藏状态 $\tilde{h}_t$ ：
  
  $\tilde{h}_t = \tanh(W x_t + r_t \odot U h_{t-1} + b)$
4. 计算隐藏状态 $h_t$ ：
  
  $h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$
返回所有时间步的隐藏状态 $h_1, h_2, ..., h_T$ 。

PyTorch实现

下面我们将用PyTorch给出一个GRU的例子：

import torch
import torch.nn as nn

# 定义GRU模型
class GRU(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(GRU, self).__init__()
        self.hidden_size = hidden_size
        self.reset_gate = nn.Linear(input_size + hidden_size, hidden_size)
        self.update_gate = nn.Linear(input_size + hidden_size, hidden_size)
        self.candidate = nn.Linear(input_size + hidden_size, hidden_size)

    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        reset = torch.sigmoid(self.reset_gate(combined))
        update = torch.sigmoid(self.update_gate(combined))
        combined = torch.cat((input, reset * hidden), 1)
        candidate = torch.tanh(self.candidate(combined))
        output = update * hidden + (1 - update) * candidate
        return output

# 定义输入和隐藏状态
input_size = 3
hidden_size = 2
input = torch.randn(5, 3)
hidden = torch.zeros(1, 2)

# 初始化GRU模型
gru = GRU(input_size, hidden_size)

# 计算输出
output = []
for i in range(input.shape[0]):
    hidden = gru(input[i], hidden)
    output.append(hidden)
output = torch.cat(output, 0)

print(output)

结构图

下面是GRU的结构图

其中， $x_t$ 是输入， $h_t$ 是输出， $r_t$ 是重置门， $z_t$ 是更新门， $\tilde{h}_t$ 是候选隐藏状态， $W_r, U_r, b_r, W_z, U_z, b_z, W, U, b$ 是可学习的参数。

Helloworld188888

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
门控循环单元（GRU）

门控循环单元（Gated Recurrent Unit, GRU）是一种循环神经网络（Recurrent Neural Network, RNN）的变体，由Cho等人在2014年提出。相比于传统的RNN，GRU引入了门控机制，使得网络能够更好地捕捉长期依赖性，同时减少了梯度消失的问题。本文将介绍GRU的方法历史、优点以及与其他方法的不同之处，并给出详细的理论推导过程和计算步骤。最后，我们将用PyTorch给出一个GRU的例子。
复制链接

扫一扫