对LSTM的思考

本来我觉得LSTM,知道里面几个门就可以了,还有怎么用tf直接写,知道今天我看到了一个lstm的手搓代码。看了一遍,不知道这个人在写啥,我才决定重新看一下lstm。

首先说下RNN,RNN说白了就是一个循环的NN嵌套,所以他才存在梯度消失和梯度爆炸,难以形成长时间的记忆。

所以才提出了LSTM,之前我也没仔细看RNN的结构,现在看了恍然大悟。

再来一个别的图。更加详细:

黄色的就是一个以tanh为激活函数的nn layer。

LSTM就不一样了:

这里里面就是各种输入门,输出门,遗忘门。

hidden_state包括一个c一个h,每次都是需要之前的c和h,和当前输入的x进行计算,

输入和遗忘门都是用来计算c变化的,而输出门则是用来计算h变化的。

这部分内容可以直接百度,讲解的还挺多,我说的是最基础的,没有任何更改的。

一些变体:(这个不太重要)

最重要的来了,你知道怎么实现吗?tf?你要是用tf可能这辈子都不知道它的底层实现,也可能你不需要。但是我碰到了。

  def unit(x, hidden_memory_tm1):
            previous_hidden_state, c_prev = tf.unstack(hidden_memory_tm1)
            # Input Gate
            i = tf.sigmoid(
                tf.matmul(x, self.Wi) +
                tf.matmul(previous_hidden_state, self.Ui) + self.bi
            )
            # Forget Gate
            f = tf.sigmoid(
                tf.matmul(x, self.Wf) +
                tf.matmul(previous_hidden_state, self.Uf) + self.bf
            )
            # Output Gate
            o = tf.sigmoid(
                tf.matmul(x, self.Wog) +
                tf.matmul(previous_hidden_state, self.Uog) + self.bog
            )
            # New Memory Cell
            c_ = tf.nn.tanh(
                tf.matmul(x, self.Wc) +
                tf.matmul(previous_hidden_state, self.Uc) + self.bc
            )
            # Final Memory cell
            c = f * c_prev + i * c_
            # Current Hidden state
            current_hidden_state = o * tf.nn.tanh(c)
            return tf.stack([current_hidden_state, c])
        return unit

当当当当,文中的核心部分,就是这,看论文实现的时候发现的。不知道具体原理真的脑壳疼。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值