LSTM Networks原理及实战

RNN 介绍
循环神经网络(Recurrent Neural Network,RNN)是一类专门用于处理时序数据样本的神经网络,它的每一层不仅输出给下一层,同时还输出一个隐状态,给当前层在处理下一个样本时使用。就像卷积神经网络可以很容易地扩展到具有很大宽度和高度的图像,而且一些卷积神经网络还可以处理不同尺寸的图像,循环神经网络可以扩展到更长的序列数据,而且大多数的循环神经网络可以处理序列长度不同的数据(for 循环,变量长度可变)。它可以看作是带自循环反馈的全连接神经网络。

RNN就是来解决这个问题的,它在网络中添加了“循环”(loops),让信息可以更持久。如图所示:

【RNN有环】

A代表一个神经网络,Xt为输入,Ht为输出,中间的环表示信息可以不断的在神经网络内传播,从上一步传到下一步。

但是光看这个图也是有点费解,可以将它展开,也就是说,上面的结构等价于下面这种结构:

【展开后的RNN】

这样就更清晰一些,相当于每一次神经网络的判断过程之后,都会把信息传给下一次判断过程,就类似于我们人脑的思考理解过程了。

事实上,RNNs确实取得了惊人的成就,在语音识别、语言模型、机器翻译、图像捕捉等方面获得了很好的效果。这些成就的核心,其实在于“LSTMs”的使用,LSTM是RNN的一种特殊形式,克服了传统或者说经典RNN模型的问题。

RNNs有啥问题呢?

原文作者举了个例子:”The clouds are in the ___.” 我们要根据前文判断这里应该填啥,很显然答案就是sky,因为这一句前面的信息可以直接推断出来,这也是RNN擅长的地方。

【短期的信息记忆】

但是很多时候,我们要推断一个词语,需要再前文很远的地方才能找到线索,比如说:”I lived in France, I worked there for many years, I…, I am now fluent in ___.”这里我们首先可以判断出应该填某种“语言”,但是究竟是哪个语言,就需要再往前找,也许很远很远,才能找到France这个词,这样才能确定答案是French。

面对这样的“长距离依赖”(Long-Term Dependencies),RNN的效果就开始变差了。虽然理论上可以通过仔细调参数在解决,但是在实践中,人们发现这个问题很难克服,即RNN很难学习到长距离的信息。

【距离一长,RNN就开始hold不住了】

幸好,LSTMs出来,解决了这个问题!

LSTM NetworksLong Short Term Memory Network长短期记忆网络)

其实LSTM最主要的改进之处,就是把神经网络层中对信息的处理变得更加复杂、精细了。先看看传统RNN的内部结构:

【RNN内部结构】

如图是三个神经网络,上一个网络的信息(即ht-1)直接传过来,配合当前网络的输入Xt,两者结合之后,再通过tanh层进行信息压缩,就形成当前网络的输出ht。

(这个tanh层就是一个函数,tanh就是双曲正切函数,可以将输入的值转化为-1到1之间的一个值,通常用于对信息的压缩处理,或者规范化处理。这里就不必深究了。)

LSTM的内部结构就稍微复杂一些了

LSTM内部结构

图中有三种元素:红色圈圈,黄色方块,黑色信息流

红色的圈圈就是各种处理过程,×代表乘法,+就是加法,tanh就是经过tanh函数处理。

黄色方块代表神经网络的一个层,σ是指sigmoid函数层,把数据压缩到0到1的范围,0就代笔信息无法通过该层,1就代笔信息可以全部通过;tanh层就不解释了。黑色信息流主要要注意信息的流向。

# coding: utf-8

# In[1]:

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from tensorflow.contrib import rnn 


# In[2]:

#载入数据集
mnist = input_data.read_data_sets("D://MNIST_data",one_hot=True)

# 输入图片是28*28
n_inputs = 28 #输入一行,一行有28个数据
max_time = 28 #一共28行
lstm_size = 100 #隐层单元
n_classes = 10 # 10个分类
batch_size = 50 #每批次50个样本
n_batch = mnist.train.num_examples // batch_size #计算一共有多少个批次

#这里的none表示第一个维度可以是任意的长度
x = tf.placeholder(tf.float32,[None,784])
#正确的标签
y = tf.placeholder(tf.float32,[None,10])

#初始化权值
weights = tf.Variable(tf.truncated_normal([lstm_size, n_classes], stddev=0.1))
#初始化偏置值
biases = tf.Variable(tf.constant(0.1, shape=[n_classes]))


#定义RNN网络
def RNN(X,weights,biases):
    # inputs=[batch_size, max_time, n_inputs]
    inputs = tf.reshape(X,[-1,max_time,n_inputs])
    #定义LSTM基本CELL
    #lstm_cell = tf.contrib.rnn.core_rnn_cell.BasicLSTMCell(lstm_size)
    lstm_cell = rnn.BasicLSTMCell(lstm_size)   
    # final_state[0]是cell state
    # final_state[1]是hidden_state
    outputs,final_state = tf.nn.dynamic_rnn(lstm_cell,inputs,dtype=tf.float32)
    results = tf.nn.softmax(tf.matmul(final_state[1],weights) + biases)
    return results
    
    
#计算RNN的返回结果
prediction= RNN(x, weights, biases)  
#损失函数
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction,labels=y))
#使用AdamOptimizer进行优化
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
#结果存放在一个布尔型列表中
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))#argmax返回一维张量中最大的值所在的位置
#求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))#把correct_prediction变为float32类型
#初始化
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(6):
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print ("Iter " + str(epoch) + ", Testing Accuracy= " + str(acc))


# In[ ]:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值