LSTM Networks原理及实战

最新推荐文章于 2024-08-08 09:57:56 发布

常耀斌

最新推荐文章于 2024-08-08 09:57:56 发布

阅读量1.2k

点赞数 2

分类专栏：人工智能技术

本文链接：https://blog.csdn.net/Peter_Changyb/article/details/88635287

版权

人工智能技术专栏收录该内容

31 篇文章 4 订阅

订阅专栏

RNN 介绍
循环神经网络（Recurrent Neural Network，RNN）是一类专门用于处理时序数据样本的神经网络，它的每一层不仅输出给下一层，同时还输出一个隐状态，给当前层在处理下一个样本时使用。就像卷积神经网络可以很容易地扩展到具有很大宽度和高度的图像，而且一些卷积神经网络还可以处理不同尺寸的图像，循环神经网络可以扩展到更长的序列数据，而且大多数的循环神经网络可以处理序列长度不同的数据（for 循环，变量长度可变）。它可以看作是带自循环反馈的全连接神经网络。

RNN就是来解决这个问题的，它在网络中添加了“循环”（loops），让信息可以更持久。如图所示：

【RNN有环】

A代表一个神经网络，Xt为输入，Ht为输出，中间的环表示信息可以不断的在神经网络内传播，从上一步传到下一步。

但是光看这个图也是有点费解，可以将它展开，也就是说，上面的结构等价于下面这种结构：

【展开后的RNN】

这样就更清晰一些，相当于每一次神经网络的判断过程之后，都会把信息传给下一次判断过程，就类似于我们人脑的思考理解过程了。

事实上，RNNs确实取得了惊人的成就，在语音识别、语言模型、机器翻译、图像捕捉等方面获得了很好的效果。这些成就的核心，其实在于“LSTMs”的使用，LSTM是RNN的一种特殊形式，克服了传统或者说经典RNN模型的问题。

RNNs有啥问题呢？

原文作者举了个例子：”The clouds are in the ___.” 我们要根据前文判断这里应该填啥，很显然答案就是sky，因为这一句前面的信息可以直接推断出来，这也是RNN擅长的地方。

【短期的信息记忆】

但是很多时候，我们要推断一个词语，需要再前文很远的地方才能找到线索，比如说：”I lived in France, I worked there for many years, I…, I am now fluent in ___.”这里我们首先可以判断出应该填某种“语言”，但是究竟是哪个语言，就需要再往前找，也许很远很远，才能找到France这个词，这样才能确定答案是French。

面对这样的“长距离依赖”（Long-Term Dependencies），RNN的效果就开始变差了。虽然理论上可以通过仔细调参数在解决，但是在实践中，人们发现这个问题很难克服，即RNN很难学习到长距离的信息。

【距离一长，RNN就开始hold不住了】

幸好，LSTMs出来，解决了这个问题！

LSTM Networks（Long Short Term Memory Network长短期记忆网络）

其实LSTM最主要的改进之处，就是把神经网络层中对信息的处理变得更加复杂、精细了。先看看传统RNN的内部结构：

【RNN内部结构】

如图是三个神经网络，上一个网络的信息（即ht-1）直接传过来，配合当前网络的输入Xt，两者结合之后，再通过tanh层进行信息压缩，就形成当前网络的输出ht。

（这个tanh层就是一个函数，tanh就是双曲正切函数，可以将输入的值转化为-1到1之间的一个值，通常用于对信息的压缩处理，或者规范化处理。这里就不必深究了。）

LSTM的内部结构就稍微复杂一些了

LSTM内部结构

图中有三种元素：红色圈圈，黄色方块，黑色信息流。

红色的圈圈就是各种处理过程，×代表乘法，+就是加法，tanh就是经过tanh函数处理。

黄色方块代表神经网络的一个层，σ是指sigmoid函数层，把数据压缩到0到1的范围，0就代笔信息无法通过该层，1就代笔信息可以全部通过；tanh层就不解释了。黑色信息流主要要注意信息的流向。

# coding: utf-8

# In[1]:

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from tensorflow.contrib import rnn 


# In[2]:

#载入数据集
mnist = input_data.read_data_sets("D://MNIST_data",one_hot=True)

# 输入图片是28*28
n_inputs = 28 #输入一行，一行有28个数据
max_time = 28 #一共28行
lstm_size = 100 #隐层单元
n_classes = 10 # 10个分类
batch_size = 50 #每批次50个样本
n_batch = mnist.train.num_examples // batch_size #计算一共有多少个批次

#这里的none表示第一个维度可以是任意的长度
x = tf.placeholder(tf.float32,[None,784])
#正确的标签
y = tf.placeholder(tf.float32,[None,10])

#初始化权值
weights = tf.Variable(tf.truncated_normal([lstm_size, n_classes], stddev=0.1))
#初始化偏置值
biases = tf.Variable(tf.constant(0.1, shape=[n_classes]))


#定义RNN网络
def RNN(X,weights,biases):
    # inputs=[batch_size, max_time, n_inputs]
    inputs = tf.reshape(X,[-1,max_time,n_inputs])
    #定义LSTM基本CELL
    #lstm_cell = tf.contrib.rnn.core_rnn_cell.BasicLSTMCell(lstm_size)
    lstm_cell = rnn.BasicLSTMCell(lstm_size)   
    # final_state[0]是cell state
    # final_state[1]是hidden_state
    outputs,final_state = tf.nn.dynamic_rnn(lstm_cell,inputs,dtype=tf.float32)
    results = tf.nn.softmax(tf.matmul(final_state[1],weights) + biases)
    return results
    
    
#计算RNN的返回结果
prediction= RNN(x, weights, biases)  
#损失函数
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction,labels=y))
#使用AdamOptimizer进行优化
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
#结果存放在一个布尔型列表中
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))#argmax返回一维张量中最大的值所在的位置
#求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))#把correct_prediction变为float32类型
#初始化
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(6):
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print ("Iter " + str(epoch) + ", Testing Accuracy= " + str(acc))


# In[ ]: