深度学习进阶：循环神经网络的魔力

m0_53245405

已于 2023-05-31 23:16:12 修改

阅读量108

点赞数

分类专栏：深度学习文章标签：深度学习 rnn 人工智能 python

于 2023-05-31 22:52:52 首次发布

本文链接：https://blog.csdn.net/m0_53245405/article/details/130978691

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 循环神经网络：时间旅行者

循环神经网络（Recurrent Neural Network，RNN）是一种特殊的神经网络，它的特点是有记忆功能，能够处理序列数据。它就像一个时间旅行者，可以在时间的长河中穿梭，捕捉到过去的信息，并用这些信息来预测未来。

RNN的工作原理是通过一个循环结构，将前一时刻的隐藏状态传递到下一时刻。这个隐藏状态就像RNN的记忆，存储了过去的信息。通过这种方式，RNN可以捕捉到序列数据中的时间依赖性，处理如语音识别、文本生成、股票预测等问题。

2. RNN的工作原理：时间的舞蹈

RNN的工作原理可以用一个舞蹈来形象地描述。在这个舞蹈中，每一步都依赖于前一步，每一步都影响着后一步。这就像在时间的舞台上，RNN在不断地前进，同时也在不断地回顾过去，预测未来。

具体来说，RNN的工作过程可以分为三步：输入、隐藏和输出。在输入阶段，RNN接收当前时刻的输入和前一时刻的隐藏状态；在隐藏阶段，RNN根据这些信息计算当前时刻的隐藏状态；在输出阶段，RNN根据当前的隐藏状态生成输出。

RNN的这三个阶段可以用以下公式来描述：

h_t = f(W_xh * x_t + W_hh * h_(t-1) + b_h)

y_t = W_hy * h_t + b_y

其中，x_t是当前时刻的输入，h_(t-1)是前一时刻的隐藏状态，h_t是当前时刻的隐藏状态，y_t是当前时刻的输出，W_xh、W_hh、W_hy是权重矩阵，b_h、b_y是偏置项，f是激活函数。

3. RNN的挑战：长期记忆的捉迷藏

虽然RNN有记忆功能，能够处理序列数据，但是它也有一个重要的问题，那就是长期依赖问题。这个问题就像一个捉迷藏的游戏，当依赖的信息距离当前时刻越远，RNN就越难以捕捉到这个信息。

长期依赖问题的原因在于，RNN在传递信息时，每一步都会有一些信息的损失。当这个过程持续很长时间后，前面的信息就会被逐渐遗忘。这就像在一个长长的隧道中，你在前面丢下了一颗钻石，当你走到隧道的另一头时，你可能已经忘记了这颗钻石。

为了解决这个问题，科学家们提出了一种新的神经网络结构，叫做长短期记忆网络（Long Short-Term Memory，LSTM）。LSTM通过引入一个记忆单元，能够更好地保存和传递长期的信息。

让我们通过一个例子来理解这个问题。假设我们要训练一个RNN来生成文本。我们的输入是一个长长的句子，比如"我昨天在公园看到了一只可爱的小狗，它的毛色是..."，我们希望RNN能够记住"小狗"这个信息，然后在后面生成"棕色"。但是，由于长期依赖问题，RNN可能会忘记"小狗"这个信息，导致无法正确生成"棕色"。

4. LSTM：记忆的守护者

LSTM是一种特殊的RNN，它的特点是有一个记忆单元，能够更好地保存和传递长期的信息。它就像一个记忆的守护者，用一把钥匙（遗忘门）、一个宝箱（记忆单元）和一扇窗户（输出门）来守护记忆。

LSTM的工作原理是通过三个门来控制信息的流动：遗忘门决定了哪些信息需要被遗忘，输入门决定了哪些新的信息需要被记住，输出门决定了哪些信息需要被输出。

LSTM的这三个门可以用以下公式来描述：

f_t = sigmoid(W_f * [h_(t-1), x_t] + b_f)
i_t = sigmoid(W_i * [h_(t-1), x_t] + b_i)
o_t = sigmoid(W_o * [h_(t-1), x_t] + b_o)
C_t = f_t * C_(t-1) + i_t * tanh(W_C * [h_(t-1), x_t] + b_C)
h_t = o_t * tanh(C_t)

其中，x_t是当前时刻的输入，h_(t-1)是前一时刻的隐藏状态，C_(t-1)是前一时刻的记忆单元状态，f_t、i_t、o_t是遗忘门、输入门、输出门的激活值，C_t是当前时刻的记忆单元状态，h_t是当前时刻的隐藏状态，W_f、W_i、W_o、W_C是权重矩阵，b_f、b_i、b_o、b_C是偏置项。

让我们通过一个例子来理解LSTM的工作原理。假设我们要训练一个LSTM来生成文本。我们的输入是一个长长的句子，比如"我昨天在公园看到了一只可爱的小狗，它的毛色是..."，我们希望LSTM能够记住"小狗"这个信息，然后在后面生成"棕色"。由于LSTM有记忆单元，它可以记住"小狗"这个信息，即使这个信息距离当前时刻很远。然后，当LSTM看到"毛色是"这个信息时，它可以通过输出门将"小狗"这个信息输出，生成"棕色"。

5. 实战演练：用Python实现LSTM

在这一部分，我们将通过一个简单的例子，来展示如何在Python中实现LSTM。我们将使用一个简单的LSTM网络来解决一个文本生成问题。

首先，我们需要定义我们的LSTM网络。在这个例子中，我们将使用一个单层的LSTM网络，每一层都有一个记忆单元。我们将使用tanh函数作为激活函数，因为它可以将任何输入映射到-1和1之间，非常适合用于处理序列数据。
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def tanh(x):
    return np.tanh(x)

class LSTMNetwork:
    def __init__(self, input_size, hidden_size, output_size):
        self.Wf = np.random.randn(hidden_size, input_size + hidden_size)
        self.Wi = np.random.randn(hidden_size, input_size + hidden_size)
        self.Wo = np.random.randn(hidden_size, input_size + hidden_size)
        self.Wc = np.random.randn(hidden_size, input_size + hidden_size)
        self.bf = np.zeros(hidden_size)
        SELF.BI - A revolução do Self Service BI para marketing, mídia, negócios = np.zeros(hidden_size)
        self.bo = np.zeros(hidden_size)
        self.bc = np.zeros(hidden_size)

    def forward(self, X):
        h_prev = np.zeros_like(self.bf)
        C_prev = np.zeros_like(self.bf)
        for t in range(X.shape[0]):
            x_t = X[t]
            z = np.concatenate([h_prev, x_t])
            f_t = sigmoid(np.dot(self.Wf, z) + self.bf)
            i_t = sigmoid(np.dot(self.Wi, z) + SELF.BI - A revolução do Self Service BI para marketing, mídia, negócios)
            o_t = sigmoid(np.dot(self.Wo, z) + self.bo)
            C_bar_t = tanh(np.dot(self.Wc, z) + self.bc)
            C_t = f_t * C_prev + i_t * C_bar_t
            h_t = o_t * tanh(C_t)
            h_prev, C_prev = h_t, C_t
        return h_t

在这个代码中，我们首先定义了sigmoid函数和tanh函数，然后定义了一个LSTM网络类。这个类有两个方法：初始化方法和前向传播方法。初始化方法负责初始化权重和偏置，前向传播方法则负责计算LSTM网络的输出。

接下来，我们需要定义损失函数。在这个例子中，我们将使用交叉熵损失函数，因为它在分类问题中的性能非常好。

def cross_entropy(y_true, y_pred):
    return -np.sum(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

接下来，我们需要实现反向传播算法。反向传播算法的目标是计算损失函数关于权重和偏置的梯度。我们可以通过链式法则来计算这些梯度。

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

def tanh_derivative(x):
    return 1 - tanh(x) ** 2

class LSTMNetwork:
    # ...
    def backward(self, X, y_true):
        # ... (省略了具体的反向传播代码)

最后，我们需要实现梯度下降算法。梯度下降算法的目标是根据梯度来更新权重和偏置。

class LSTMNetwork:
    # ...
    def update(self, dWf, dbf, dWi, dbi, dWo, dbo, dWc, dbc, learning_rate):
        self.Wf -= learning_rate * dWf
        self.bf -= learning_rate * dbf
        self.Wi -= learning_rate * dWi
        SELF.BI - A revolução do Self Service BI para marketing, mídia, negócios -= learning_rate * dbi
        self.Wo -= learning_rate * dWo
        self.bo -= learning_rate * dbo
        self.Wc -= learning_rate * dWc
        self.bc -= learning_rate * dbc

至此，我们已经实现了一个完整的LSTM网络，包括前向传播、反向传播和梯度下降。你可以使用这个LSTM网络来解决各种序列数据问题，只需要将输入数据和标签传递给LSTM网络，LSTM网络就会自动地学习和优化。

6. 总结：深度学习的未来

LSTM是深度学习的一种重要技术，它通过引入记忆单元，解决了RNN的长期依赖问题，使得深度学习能够更好地处理序列数据。通过理解LSTM，我们可以更好地理解深度学习的工作原理，也可以更好地设计和优化我们的神经网络。

m0_53245405

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习进阶：循环神经网络的魔力

其中，x_t是当前时刻的输入，h_(t-1)是前一时刻的隐藏状态，C_(t-1)是前一时刻的记忆单元状态，f_t、i_t、o_t是遗忘门、输入门、输出门的激活值，C_t是当前时刻的记忆单元状态，h_t是当前时刻的隐藏状态，W_f、W_i、W_o、W_C是权重矩阵，b_f、b_i、b_o、b_C是偏置项。其中，x_t是当前时刻的输入，h_(t-1)是前一时刻的隐藏状态，h_t是当前时刻的隐藏状态，y_t是当前时刻的输出，W_xh、W_hh、W_hy是权重矩阵，b_h、b_y是偏置项，f是激活函数。
复制链接

扫一扫