对LSTM的思考

最新推荐文章于 2024-07-17 17:40:56 发布

这梦想不休不止

最新推荐文章于 2024-07-17 17:40:56 发布

阅读量443

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_36616268/article/details/84595347

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本来我觉得LSTM，知道里面几个门就可以了，还有怎么用tf直接写，知道今天我看到了一个lstm的手搓代码。看了一遍，不知道这个人在写啥，我才决定重新看一下lstm。

首先说下RNN，RNN说白了就是一个循环的NN嵌套，所以他才存在梯度消失和梯度爆炸，难以形成长时间的记忆。

所以才提出了LSTM，之前我也没仔细看RNN的结构，现在看了恍然大悟。

再来一个别的图。更加详细：

黄色的就是一个以tanh为激活函数的nn layer。

LSTM就不一样了：

这里里面就是各种输入门，输出门，遗忘门。

hidden_state包括一个c一个h，每次都是需要之前的c和h，和当前输入的x进行计算，

输入和遗忘门都是用来计算c变化的，而输出门则是用来计算h变化的。

这部分内容可以直接百度，讲解的还挺多，我说的是最基础的，没有任何更改的。

一些变体：（这个不太重要）

最重要的来了，你知道怎么实现吗?tf?你要是用tf可能这辈子都不知道它的底层实现，也可能你不需要。但是我碰到了。

  def unit(x, hidden_memory_tm1):
            previous_hidden_state, c_prev = tf.unstack(hidden_memory_tm1)
            # Input Gate
            i = tf.sigmoid(
                tf.matmul(x, self.Wi) +
                tf.matmul(previous_hidden_state, self.Ui) + self.bi
            )
            # Forget Gate
            f = tf.sigmoid(
                tf.matmul(x, self.Wf) +
                tf.matmul(previous_hidden_state, self.Uf) + self.bf
            )
            # Output Gate
            o = tf.sigmoid(
                tf.matmul(x, self.Wog) +
                tf.matmul(previous_hidden_state, self.Uog) + self.bog
            )
            # New Memory Cell
            c_ = tf.nn.tanh(
                tf.matmul(x, self.Wc) +
                tf.matmul(previous_hidden_state, self.Uc) + self.bc
            )
            # Final Memory cell
            c = f * c_prev + i * c_
            # Current Hidden state
            current_hidden_state = o * tf.nn.tanh(c)
            return tf.stack([current_hidden_state, c])
        return unit

当当当当，文中的核心部分，就是这，看论文实现的时候发现的。不知道具体原理真的脑壳疼。