1.结论
照惯例,先上结论,再说过程,不想看过程的可直接略过。
从这个图我们可以知道,一个LSTM cell中有4个参数,并且形状都是一样的shape=[output_size+n,output_size
],其中n表示输入张量的维度,output_size通过函数BasicLSTMCell(num_units=output_size)
获得。
2.怎么来的?
让我们一步一步从Tensorflow的源码中来获得这些信息!
2.1 cell.state_size
首先,需要明白Tensorflow中,state表示的是cell中有几个状态。例如在BasicRNNCell
中,state就只有h这一个状态;而在BasicLSTMCell
中,state就有h和c这两个状态。其次,state_size表示的是每个状态的第二维度,也就是output_size。
举例:
import tensorflow as tf
output_size = 10
batch_size = 32
dim = 50
cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=output_size)
print(cell.state_size)
>>
LSTMStateTuple(c=10, h=10)
LSTMStateTuple(c=10, h=10)
就表示,c和h的output_size都为10,即[batch_size,10]
。另外Tensorflow在实现的时候,都将c,h困在一起了,即以Tuple的方式,这也是Tensorflow所推荐的。
2.2 cell.zero_state
在LSTM中,zero_state
就自然对应两个部分了, h 0 , c 0 h_0,c_0 h0,c0。
import tensorflow as tf
output_size = 10
batch_size = 32
dim = 50
cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=output_size)
input = tf.placeholder(dtype=tf.float32, shape=[batch_size, 50])
h0 = cell.zero_state(batch_size=batch_size, dtype=tf.float32)
print(h0)
>>
LSTMStateTuple(c=