深度循环神经网络

最新推荐文章于 2024-04-26 11:26:37 发布

Helloworld188888

最新推荐文章于 2024-04-26 11:26:37 发布

阅读量964

点赞数 2

分类专栏： Python pytorch 深度学习文章标签： rnn 深度学习神经网络

本文链接：https://blog.csdn.net/qq_24951479/article/details/130529485

版权

Python 同时被 3 个专栏收录

39 篇文章 3 订阅

订阅专栏

深度学习

37 篇文章 1 订阅

订阅专栏

pytorch

27 篇文章 1 订阅

订阅专栏

深度循环神经网络

前言

深度循环神经网络（Deep Recurrent Neural Network，DRNN）是一种在时间序列数据上表现出色的神经网络结构。它可以处理长序列数据，如语音、文本和视频等，具有很强的时序建模能力。本文将介绍DRNN的方法历史、优点和与其他方法的不同之处，并给出详细的理论推导过程和计算步骤。

DRNN的方法历史

DRNN最早由Hochreiter和Schmidhuber在1997年提出，他们将循环神经网络（Recurrent Neural Network，RNN）的层数增加到了多层，从而提高了模型的表现能力。随着深度学习的发展，DRNN也得到了广泛的应用和研究。

DRNN的优点

DRNN的主要优点包括：

可以处理长序列数据，具有很强的时序建模能力；
可以通过多层结构提高模型的表现能力；
可以通过反向传播算法进行端到端的训练。

DRNN与其他方法的不同之处

与传统的RNN相比，DRNN增加了多层结构，从而提高了模型的表现能力。与卷积神经网络（Convolutional Neural Network，CNN）相比，DRNN可以处理不同长度的输入序列，并且可以学习到长期依赖关系。

DRNN的结构

DRNN的结构可以用下面的Mermaid代码表示：

其中，LSTM表示长短时记忆网络（Long Short-Term Memory），它是一种常用的RNN变种。

具体来说，DRNN的每一层都由一个LSTM组成，它们共享参数。每个LSTM都包含一个输入门、一个遗忘门和一个输出门，以及一个细胞状态。LSTM的具体计算过程可以参考下面的公式：

$\begin{aligned} i_t &= \sigma(W_{xi}x_t+W_{hi}h_{t-1}+W_{ci}c_{t-1}+b_i) \\ f_t &= \sigma(W_{xf}x_t+W_{hf}h_{t-1}+W_{cf}c_{t-1}+b_f) \\ o_t &= \sigma(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_t+b_o) \\ c_t &= f_tc_{t-1}+i_t\text{tanh}(W_{xc}x_t+W_{hc}h_{t-1}+b_c) \\ h_t &= o_t\text{tanh}(c_t) \end{aligned}$

其中， $x_t$ 表示当前时刻的输入， $h_{t-1}$ 表示上一时刻的隐藏状态， $c_{t-1}$ 表示上一时刻的细胞状态， $i_t$ 、 $f_t$ 和 $o_t$ 分别表示输入门、遗忘门和输出门的输出， $\sigma$ 表示sigmoid函数， $W$ 和 $b$ 表示权重和偏置。

DRNN的理论推导过程

为了方便推导，我们假设DRNN的每一层只包含一个神经元。设 $x_t$ 为输入， $h_t$ 为隐藏状态， $y_t$ 为输出， $W_{hx}$ 和 $W_{hh}$ 分别为输入和隐藏状态的权重， $b$ 为偏置，则DRNN的计算过程可以表示为：

$\begin{aligned} h_t &= \text{tanh}(W_{hx}x_t+W_{hh}h_{t-1}+b) \\ y_t &= h_t \end{aligned}$

为了方便推导，我们将DRNN展开成如下形式：

$\begin{aligned} h_t &= \text{tanh}(W_{hx}x_t+W_{hh}\text{tanh}(W_{hx}x_{t-1}+W_{hh}\text{tanh}(\cdots))) \\ y_t &= h_t \end{aligned}$

设 $t$ 时刻的误差为 $e_t$ ，则 $t - 1$ 时刻的误差可以表示为：

$e_{t-1} = \frac{\partial e_t}{\partial h_{t-1}}\frac{\partial h_t}{\partial h_{t-1}}+\frac{\partial e_t}{\partial h_t}\frac{\partial h_t}{\partial h_{t-1}}$

其中， $\frac{\partial e_t}{\partial h_t}$ 可以通过反向传播算法计算得到。 $\frac{\partial h_t}{\partial h_{t-1}}$ 可以表示为：

$\frac{\partial h_t}{\partial h_{t-1}} = W_{hh}\text{sech}^2(W_{hx}x_{t-1}+W_{hh}\text{tanh}(\cdots))$

其中， $\text{sech}$ 表示双曲正切函数的反函数。我们可以将 $\text{sech}^2$ 表示为：

$\text{sech}^2(x) = 1-\text{tanh}^2(x)$

因此， $\frac{\partial h_t}{\partial h_{t-1}}$ 可以表示为：

$\frac{\partial h_t}{\partial h_{t-1}} = W_{hh}(1-\text{tanh}^2(W_{hx}x_{t-1}+W_{hh}\text{tanh}(\cdots)))$

由于DRNN的每一层都共享参数，因此 $\frac{\partial h_t}{\partial h_{t-1}}$ 可以表示为：

$\frac{\partial h_t}{\partial h_{t-1}} = W_{hh}(1-\text{tanh}^2(W_{hx}x_{t-1}+W_{hh}h_{t-1}))$

因此， $t - 1$ 时刻的误差可以表示为：

$e_{t-1} = \frac{\partial e_t}{\partial h_{t-1}}\frac{\partial h_t}{\partial h_{t-1}}+\frac{\partial e_t}{\partial h_t}W_{hh}(1-\text{tanh}^2(W_{hx}x_{t-1}+W_{hh}h_{t-1}))$

由此，我们可以使用反向传播算法对DRNN进行训练。

DRNN的计算步骤

为了方便，我们假设DRNN的每一层包含4个神经元。设 $x_t$ 为输入， $h_t$ 为隐藏状态， $y_t$ 为输出， $W_{hx}$ 、 $W_{hh}$ 和 $W_{hy}$ 分别为输入、隐藏状态和输出的权重， $b_h$ 和 $b_y$ 分别为隐藏状态和输出的偏置，则DRNN的计算过程可以表示为：

$\begin{aligned} h_t &= \text{tanh}(W_{hx}x_t+W_{hh}h_{t-1}+b_h) \\ y_t &= \text{softmax}(W_{hy}h_t+b_y) \end{aligned}$

其中， $\text{softmax}$ 表示softmax函数。设 $t$ 时刻的标签为 $y_t$ ，则 $t$ 时刻的损失函数可以表示为：

$L_t = -\sum_{i=1}^Ny_{t,i}\log\hat{y}_{t,i}$

其中， $N$ 为类别数， $\hat{y}_{t,i}$ 为模型预测的 $i$ 类的概率。我们可以使用随机梯度下降算法对模型进行训练。

具体来说，对于每一个训练样本 $x_t,y_t)$ ，我们可以按照如下步骤进行计算：

前向传播。计算 $h_t$ 和 $y_t$ 。
计算损失函数。计算 $L_t$ 。
反向传播。计算 $\frac{\partial L_t}{\partial W_{hx}}$ 、 $\frac{\partial L_t}{\partial W_{hh}}$ 、 $\frac{\partial L_t}{\partial W_{hy}}$ 、 $\frac{\partial L_t}{\partial b_h}$ 和 $\frac{\partial L_t}{\partial b_y}$ 。
更新参数。根据 $\frac{\partial L_t}{\partial W_{hx}}$ 、 $\frac{\partial L_t}{\partial W_{hh}}$ 、 $\frac{\partial L_t}{\partial W_{hy}}$ 、 $\frac{\partial L_t}{\partial b_h}$ 和 $\frac{\partial L_t}{\partial b_y}$ 更新 $W_{hx}$ 、 $W_{hh}$ 、 $W_{hy}$ 、 $b_h$ 和 $b_y$ 。

我们可以使用PyTorch实现上述步骤。下面是一个简单的例子：

import torch
import torch.nn as nn

class DRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(DRNN, self).__init__()
        self.hidden_size = hidden_size
        self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        h0 = torch.zeros(1, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(1, x.size(0), self.hidden_size).to(x.device)
        out, _ = self.lstm(x, (h0, c0))
        out = self.fc(out[:, -1, :])
        return out

# 定义模型
input_size = 10
hidden_size = 20
output_size = 2
model = DRNN(input_size, hidden_size, output_size)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# 训练模型
for epoch in range(num_epochs):
    for i, (inputs, labels) in enumerate(train_loader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

在上面的例子中，我们定义了一个DRNN模型，并使用交叉熵损失函数和随机梯度下降算法对模型进行训练。具体来说，我们将数据加载到设备上，然后将数据输入到模型中，计算模型输出和损失函数，然后使用反向传播算法计算梯度并更新模型参数。

Helloworld188888

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
深度循环神经网络

深度循环神经网络（Deep Recurrent Neural Network，DRNN）是一种在时间序列数据上表现出色的神经网络结构。它可以处理长序列数据，如语音、文本和视频等，具有很强的时序建模能力。本文将介绍DRNN的方法历史、优点和与其他方法的不同之处，并给出详细的理论推导过程和计算步骤。
复制链接

扫一扫