一、LSTM与Bi-LSTM简介
有关LSTM的介绍请参考:tensorflow学习笔记(八):LSTM手写体(MNIST)识别、循环神经网络RNN详细推导和LSTM(长短时间记忆模型)的详细推导。
而Bi-LSTM与LSTM相似,只不过隐藏层的的block之间是双向传播的,适用于当前的信息不仅与前时刻的信息有关,还与后边的信息有关。如下图所示:
二、LSTM手写体识别
与tensorflow学习笔记(八):LSTM手写体(MNIST)识别不同的是,这里定义的lstm单元采用的是 rnn.static_rnn,大家可以自行对比,有关两个函数的区别,在上一章给出了说明。
from __future__ import print_function
import tensorflow as tf
from tensorflow.contrib import rnn
# 导入MNIST data
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
# 训练参数
learning_rate = 0.001
training_steps = 1000
batch_size = 128
display_step = 200
# 网络参数
num_input = 28 # MNIST数据输入维度(img shape: 28*28)
timesteps = 28 # 步长
num_hidden = 128 # 隐藏层
num_classes = 10 # 分类 (0-9 个数字)
# 定义占位符
X = tf.placeholder("float", [None, timesteps, num_input])
Y = tf.placeholder("float", [None, num_classes])
# 定义权重
weights = {
'out': tf.Variable(tf.truncated_normal([num_hidden, num_classes],stddev=0.1))
}
biases =