循环神经网络

最新推荐文章于 2020-10-03 17:52:43 发布

午后阳光依旧那么明媚

最新推荐文章于 2020-10-03 17:52:43 发布

阅读量333

点赞数 1

本文链接：https://blog.csdn.net/qq_41704037/article/details/88625775

版权

RNN：

RNN（Recurrent Neural Network）循环神经网络，是一种基于序列的神经网络，不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。结构如图：

RNN是一种可以预测未来（在某种程度上）的神经网络，可以用来分析时间序列数据（比如分析股价，预测买入点和卖出点）。在自动驾驶中，可以预测路线来避免事故。更一般的，它可以任意序列长度作为输入，而不是我们之前模型使用的固定序列长度。例如RNN可以将句子、文档、语音作为输入，进行自动翻译、情感分析、语音转文字。此外，RNN还用于作曲（谷歌Magenta项目作出的the one）、作文、图片自动生成标题。
双向RNN：

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。
在这里插入图片描述

从前往后：S1t→=f(U1→∗Xt+W1→∗St−1+b1→)
从后往前:S2t→=f(U2∗Xt→+W2→∗St−1+b2→)
输出：ot=softmax(V∗[S1t→;S2t→])
这里的[S1t→;S2t→][St1→;St2→]做的是一个拼接，如果他们都是1000X1维的，拼接在一起就是1000X2维的了。
双向RNN需要的内存是单向RNN的两倍，因为在同一时间点，双向RNN需要保存两个方向上的权重参数，在分类的时候，需要同时输入两个隐藏层输出的信息。
递归神经网络：

Longshort term memory(LSTM )，循环神经网络的变形结构，在普通RNN基础上，在隐藏层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐藏层各单元间传递时通过几个可控门（遗忘门、输入门、候选门、输出门），可以控制之前信息和当前信息的记忆和遗忘程度，从而使RNN网络具备了长期记忆功能，对于RNN的实际应用，有巨大作用。

LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力！
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh 层。
LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。LSTM是一种拥有三个“门”结构的特殊网络结构。

针对梯度消失（LSTM等其他门控RNN）、梯度爆炸（梯度截断）的解决方案:

BPTT。（backpropagation through time）

BPTT算法是针对循环层的训练算法，它的基本原理和BP算法是一样的，也包含同样的三个步骤：

1、首先确定参数的初始化值，然后前向计算每个神经元的输出值；不过它的输出值比RNN和NN要多，因为有几个门，对于LSTM而言，依据前面介绍的流程，按部就班地分别计算出ft，it，ct，ot和st。
2、反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；与传统RNN类似，LSTM误差项的反向传播包括两个层面：一个是空间上层面的，将误差项向网络的上一层传播。另一个是时间层面上的，沿时间反向传播，即从当前t时刻开始，计算每个时刻的误差。

3、计算每个权重（即参数）的梯度。最后再用随机梯度下降算法更新权重。

利用Text-RNN模型来进行文本分类：

结构：

降维--->双向lstm ---> concat输出--->平均 -----> softmax

class TRNNConfig(object): """RNN配置参数"""

# 模型参数
embedding_dim = 64 # 词向量维度
seq_length = 600 # 序列长度
num_classes = 10 # 类别数
vocab_size = 5000 # 词汇表达小

num_layers= 2 # 隐藏层层数
hidden_dim = 128 # 隐藏层神经元
rnn = 'gru' # lstm 或 gru

dropout_keep_prob = 0.8 # dropout保留比例
learning_rate = 1e-3 # 学习率

batch_size = 128 # 每批训练大小
num_epochs = 10 # 总迭代轮次

print_per_batch = 100 # 每多少轮输出一次结果
save_per_batch = 10 # 每多少轮存入tensorboard

午后阳光依旧那么明媚

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络

RNN：RNN（Recurrent Neural Network）循环神经网络，是一种基于序列的神经网络，不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。结构如图：RNN是一种可以预测未来（在某种程度上）的神经网络，可以用来分析时间序列数据（比如分析股价，预测买入点和卖出点）。在自动驾驶中，可以预测路线来避...
复制链接

扫一扫