现代循环神经网络：深度循环神经网络

最新推荐文章于 2024-01-09 01:16:56 发布

青云遮夜雨

最新推荐文章于 2024-01-09 01:16:56 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签： rnn 深度学习人工智能神经网络

本文链接：https://blog.csdn.net/qq_51957239/article/details/129518514

版权

深度学习专栏收录该内容

44 篇文章 12 订阅

订阅专栏

专栏：神经网络复现目录

深度循环神经网络

深度循环神经网络（Deep Recurrent Neural Network，简称DRNN）是一种循环神经网络（Recurrent Neural Network，简称RNN）的扩展形式，它具有多个隐藏层，并且可以处理长度不固定的序列数据。与传统的RNN相比，DRNN在每个时间步上执行多次非线性转换，以便对更长的序列数据进行建模。

在DRNN中，每个时间步的输入和隐藏状态都是向量形式的。网络中的每个隐藏层都有自己的权重矩阵，并且这些权重矩阵可以共同对输入和前一个隐藏层的状态进行转换。这使得DRNN能够通过多次非线性变换来学习更高级别的特征，从而提高其在序列数据上的建模能力。

DRNN可以应用于多种领域，如语音识别、自然语言处理、图像处理等。例如，在自然语言处理领域，DRNN可以用于处理不定长的文本序列，并进行情感分析、语音识别和机器翻译等任务。
在这里插入图片描述

数学计算

深度循环神经网络（DRNN）的计算公式可以描述为以下步骤：

对于每个时间步 $t$ ，输入 $x_t$ 和前一个时间步的隐藏状态 $h_{t-1}$ ，计算当前时间步的隐藏状态 $h_t$ ：
$h_t = f(Wx_t + Uh_{t-1} + b)$

其中， $W$ 是输入 $x_t$ 的权重矩阵， $U$ 是前一个时间步的隐藏状态 $h_{t-1}$ 的权重矩阵， $b$ 是偏置项。 $f$ 是非线性激活函数，如sigmoid、tanh或ReLU等。

对于深度循环神经网络，可以使用多个隐藏层来提高网络的表达能力。每个隐藏层的计算方式与第一个隐藏层相同，但输入为前一个隐藏层的输出 $h_{t-1}^{(l)}$ ：
$h_t^{(l)} = f(W^{(l)}h_t^{(l-1)} + U^{(l)}h_{t-1}^{(l)} + b^{(l)})$

其中， $W^{(l)}$ 和 $U^{(l)}$ 分别是第 $l$ 个隐藏层的权重矩阵， $b^{(l)}$ 是第 $l$ 个隐藏层的偏置项。

输出层的计算方式与传统的神经网络相同，即将最后一个隐藏层的输出 $h_T^{(L-1)}$ 通过一个全连接层进行线性变换，并经过一个激活函数 $g$ （如softmax）：
$y = g(Vh_T^{(L-1)} + c)$

其中， $V$ 是输出层的权重矩阵， $c$ 是输出层的偏置项。

整个深度循环神经网络的训练过程就是通过反向传播算法来计算损失函数关于权重和偏置项的梯度，并使用梯度下降等优化算法来更新参数。

实现

import torch
from torch import nn
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
device = d2l.try_gpu()
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)

注意：num_layers参数即为隐藏层层数

num_epochs, lr = 500, 2
d2l.train_ch8(model, train_iter, vocab, lr*1.0, num_epochs, device)

在这里插入图片描述

青云遮夜雨

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
现代循环神经网络：深度循环神经网络

深度循环神经网络（Deep Recurrent Neural Network，简称DRNN）是一种循环神经网络（Recurrent Neural Network，简称RNN）的扩展形式，它具有多个隐藏层，并且可以处理长度不固定的序列数据。网络中的每个隐藏层都有自己的权重矩阵，并且这些权重矩阵可以共同对输入和前一个隐藏层的状态进行转换。每个隐藏层的计算方式与第一个隐藏层相同，但输入为前一个隐藏层的输出。输出层的计算方式与传统的神经网络相同，即将最后一个隐藏层的输出。个隐藏层的权重矩阵，是输出层的权重矩阵，
复制链接

扫一扫