本来我觉得LSTM,知道里面几个门就可以了,还有怎么用tf直接写,知道今天我看到了一个lstm的手搓代码。看了一遍,不知道这个人在写啥,我才决定重新看一下lstm。
首先说下RNN,RNN说白了就是一个循环的NN嵌套,所以他才存在梯度消失和梯度爆炸,难以形成长时间的记忆。
所以才提出了LSTM,之前我也没仔细看RNN的结构,现在看了恍然大悟。
再来一个别的图。更加详细:
黄色的就是一个以tanh为激活函数的nn layer。
LSTM就不一样了:
这里里面就是各种输入门,输出门,遗忘门。
hidden_state包括一个c一个h,每次都是需要之前的c和h,和当前输入的x进行计算,
输入和遗忘门都是用来计算c变化的,而输出门则是用来计算h变化的。
这部分内容可以直接百度,讲解的还挺多,我说的是最基础的,没有任何更改的。
一些变体:(这个不太重要)
最重要的来了,你知道怎么实现吗?tf?你要是用tf可能这辈子都不知道它的底层实现,也可能你不需要。但是我碰到了。
def unit(x, hidden_memory_tm1):
previous_hidden_state, c_prev = tf.unstack(hidden_memory_tm1)
# Input Gate
i = tf.sigmoid(
tf.matmul(x, self.Wi) +
tf.matmul(previous_hidden_state, self.Ui) + self.bi
)
# Forget Gate
f = tf.sigmoid(
tf.matmul(x, self.Wf) +
tf.matmul(previous_hidden_state, self.Uf) + self.bf
)
# Output Gate
o = tf.sigmoid(
tf.matmul(x, self.Wog) +
tf.matmul(previous_hidden_state, self.Uog) + self.bog
)
# New Memory Cell
c_ = tf.nn.tanh(
tf.matmul(x, self.Wc) +
tf.matmul(previous_hidden_state, self.Uc) + self.bc
)
# Final Memory cell
c = f * c_prev + i * c_
# Current Hidden state
current_hidden_state = o * tf.nn.tanh(c)
return tf.stack([current_hidden_state, c])
return unit
当当当当,文中的核心部分,就是这,看论文实现的时候发现的。不知道具体原理真的脑壳疼。