基本RNN

循环神经网络(RNN)是一种处理时间序列数据的模型,通过隐藏状态捕捉长期依赖。然而,RNN面临梯度消失和长依赖问题,导致训练困难。为解决这些问题,出现了LSTM和GRU等改进模型,以及梯度裁剪等优化技术。
摘要由CSDN通过智能技术生成

循环神经网络(RNN)

简介

循环神经网络(Recurrent Neural Network,RNN)是一种具有记忆能力的神经网络模型,主要用于处理时间序列数据,如语音信号、文本等。

要点

  1. 循环结构:RNN网络在每个时间步上接收前一个时间步的隐藏状态信息作为输入,通过信息的传递和累积来捕捉序列数据中的长期依赖关系。
  2. 隐藏状态:RNN网络在时间序列上维护一个隐藏状态 h t h_{t} ht,用于表示从前面时间步到当前时间步的信息。
  3. 参数共享:RNN网络的参数是共享的,即在每个时间步上,网络使用相同的权重矩阵进行计算。
  4. 反向传播算法:RNN网络可以通过反向传播算法来进行训练,在反向传播算法中,通过计算损失函数对RNN网络中的参数进行更新,从而不断优化网络模型。

流程

RNN是一种序列模型,它能够学习到序列数据中的时间依赖关系。RNN的基本思想是在每个时间步上利用当前时刻的输入 x t x_t xt和前一时刻的隐藏状态 h t − 1 h_{t-1} ht1,来计算当前时刻的输出 h t h_t ht和新的隐藏状态 h t h_t ht,如下所示:

h t = f ( x t , h t − 1 ) h_t = f(x_t, h_{t-1}) ht=f(xt,ht1)

其中, f f f表示一个非线性函数,例如 t a n h tanh tanh s i g m o i d sigmoid sigmoid等,在实际中,我们可以采用LSTM或者GRU等更加复杂的循环单元结构(例如引入门控机制),来提高模型的性能。

RNN的具体流程如下:

  1. 输入层:输入层接收一个序列,每个时刻对应一个输入 x t x_t xt。假设序列长度为 T T T,则第 t t t时刻的输入为 x t x_t xt

  2. 隐藏层:在每个时刻 t t t,隐藏层根据当前输入 x t x_t xt和前一时刻的隐藏状态 h t − 1 h_{t-1} ht1,更新当前时刻的隐藏状态 h t h_t ht,其计算方式可以表示为:

    h t = f ( W h x x t + W h h h t − 1 + b ) h_t = f(W_{hx}x_t + W_{hh}h_{t-1} + b) ht=f(Whxxt+Whhht1+b)

    其中, W h x W_{hx} Whx W h h W_{hh} Whh分别为输入权重矩阵和隐层权重矩阵, b b b为偏置向量。

  3. 输出层:在每个时刻 t t t,输出层利用当前时刻的隐藏状态 h t h_t ht,计算当前时刻的输出 y t ^ \hat{y_t} yt^

    y t ^ = g ( W y h h t + b y ) \hat{y_t}=g(W_{yh}h_t + b_y) yt^=g(Wyhht+by)

    其中, W y h W_{yh} Wyh为输出权重矩阵, b y b_y by为偏置向量, g g g为输出激活函数(可根据不同的任务选择不同的激活函数,例如 s i g m o i d sigmoid sigmoid s o f t m a x softmax softmax等)。

  4. 反向传播算法:通过计算模型输出和真实标签的误差来更新模型参数,使模型的预测结果更加接近于真实标签。

综上所述,RNN通过输入 x t x_t xt在每个时刻产生一个输出 y t ^ \hat{y_t} yt^,同时利用隐藏状态 h t h_t ht来学习序列数据中的时间依赖关系。

存在的问题

1. 梯度消失和梯度爆炸

RNN的参数在每个时间步都是共享的,因此反向传播算法在进行误差反向传播时,需要不断地对参数进行链式求导。这样会导致随着时间步的增加,梯度值不断变小或变大,可能会出现梯度消失或梯度爆炸的问题,从而导致模型无法收敛或收敛速度非常缓慢。

2. 长依赖问题

RNN的计算能力受到时间步数的限制,当时间步数超过一定阈值时,RNN可能无法捕捉到数据中的长期依赖关系,从而影响模型的泛化能力。

3. 训练效率低下

由于RNN需要在每个时间步都进行前向传播和反向传播计算,因此训练效率较低。

为了解决这些问题,人们提出了一系列改进的RNN模型,例如LSTM、GRU等,通过引入门控机制、记忆单元等结构,在一定程度上解决了梯度消失、梯度爆炸和长依赖等问题。此外,人们还提出了一些优化算法,例如梯度裁剪、正则化等方法,也可以在一定程度上缓解RNN网络的问题。

记忆容量问题

随着 h t h_t ht不断累积存储新的输入信息,会发生饱和现象


梯度裁剪

梯度裁剪是一种在深度学习中常用的优化技术,它的目的是防止梯度爆炸和消失。在训练深度神经网络时,由于反向传播算法会计算出每个参数对应的梯度,当网络比较深或者参数比较多时,梯度可能会变得非常大或非常小,这就可能导致训练不稳定甚至无法收敛。

梯度裁剪的做法是对模型的所有参数的梯度进行限制,确保它们的范数不超过一个固定的阈值。如果某个参数的梯度的范数超过了阈值,则将其重新缩放到范数等于阈值,这样可以有效地控制梯度的变化范围,防止梯度出现异常值。

通常情况下,梯度裁剪的阈值是一个超参数,需要手动设定。根据经验,较常见的阈值是1.0或5.0。

抱歉,上一段代码未完成,以下是完整的基本 RNN 模型的 Python 代码,包含训练和预测过程: ```python import tensorflow as tf import numpy as np # 定义超参数 num_epochs = 100 total_series_length = 50000 truncated_backprop_length = 15 state_size = 4 num_classes = 2 echo_step = 3 batch_size = 5 num_batches = total_series_length//batch_size//truncated_backprop_length # 生成数据集 def generate_data(): x = np.array(np.random.choice(2, total_series_length, p=[0.5, 0.5])) y = np.roll(x, echo_step) y[:echo_step] = 0 x = x.reshape((batch_size, -1)) y = y.reshape((batch_size, -1)) return (x, y) # 定义输入和输出占位符 batchX_placeholder = tf.placeholder(tf.float32, [batch_size, truncated_backprop_length]) batchY_placeholder = tf.placeholder(tf.int32, [batch_size, truncated_backprop_length]) # 定义 RNN 的权重和偏置 W = tf.Variable(np.random.rand(state_size+1, state_size), dtype=tf.float32) b = tf.Variable(np.zeros((1,state_size)), dtype=tf.float32) W2 = tf.Variable(np.random.rand(state_size, num_classes),dtype=tf.float32) b2 = tf.Variable(np.zeros((1,num_classes)), dtype=tf.float32) # 定义 RNN 的状态向量 s0 init_state = tf.placeholder(tf.float32, [batch_size, state_size]) state_per_layer_list = tf.unstack(init_state, axis=0) rnn_tuple_state = tuple( [tf.contrib.rnn.LSTMStateTuple(state_per_layer_list[idx][0], state_per_layer_list[idx][1]) for idx in range(state_size)] ) # 在时间序列上展开 RNN,并计算输出 current_state = rnn_tuple_state states_series = [] for current_input in tf.unstack(batchX_placeholder, axis=1): current_input = tf.reshape(current_input, [batch_size, 1]) input_and_state_concatenated = tf.concat([current_input, current_state[-1].h], 1) next_state = tf.tanh(tf.matmul(input_and_state_concatenated, W) + b) states_series.append(next_state) current_state = tuple([tf.contrib.rnn.LSTMStateTuple(next_state, current_state[idx].c) for idx in range(state_size)]) # 计算 logits 和预测值 logits_series = [tf.matmul(state, W2) + b2 for state in states_series] predictions_series = [tf.nn.softmax(logits) for logits in logits_series] # 定义损失函数和优化器 losses = [tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=labels) for logits, labels in zip(logits_series, tf.unstack(batchY_placeholder, axis=1))] total_loss = tf.reduce_mean(losses) train_step = tf.train.AdagradOptimizer(0.3).minimize(total_loss) # 开始训练模型 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for epoch_idx in range(num_epochs): x,y = generate_data() _current_state = np.zeros((batch_size, state_size)) print("New data, epoch", epoch_idx) for batch_idx in range(num_batches): start_idx = batch_idx * truncated_backprop_length end_idx = start_idx + truncated_backprop_length batchX = x[:,start_idx:end_idx] batchY = y[:,start_idx:end_idx] _total_loss, _train_step, _current_state, _predictions_series = sess.run( [total_loss, train_step, current_state, predictions_series], feed_dict={ batchX_placeholder:batchX, batchY_placeholder:batchY, init_state:_current_state }) if batch_idx%100 == 0: print("Step",batch_idx, "Batch loss", _total_loss) # 使用模型进行预测 test_data = np.array(np.random.choice(2, 10, p=[0.5, 0.5])) test_data = test_data.reshape((1, -1)) current_state = np.zeros((batch_size, state_size)) predicted_output = [] for i in range(test_data.shape[1]): output_probs, current_state = sess.run( [predictions_series[-1], current_state], feed_dict={ batchX_placeholder: test_data[:,i].reshape((batch_size, 1)), init_state: current_state }) predicted_output.append(output_probs[0,1]) print(predicted_output) ``` 这段代码用于生成一个包含 50000 个数据点的二进制序列数据集,并使用 RNN 模型对其进行训练和预测。训练过程使用 Adagrad 优化器进行优化。在每个 epoch ,使用生成数据集函数生成一个新的数据集,并使用 RNN 模型对其进行训练。在训练过程,每 100 个 batch 输出一次损失值。预测过程,使用训练好的模型对一个新的 10 个元素的数据序列进行预测,输出预测值序列所有为 1 的概率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值