(译) LSTM 网络原理介绍

原文链接: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

RNN基本结构

 

                

 上述两图分别为闭环结构和闭环展开结构

    RNN相对传统的ANN网络结构实现了信息的保留,具有一定的记忆功能。可以将过去的信息应用到当前的任务中。

LSTM基本结构

    为完成当前任务如果仅仅需要短期的信息而不需要长期的信息可以使用RNN。但是如果如果任务需要更多的上下文信息,仅仅依靠少量的过去信息无法完成准确的预测。也就是过去信息和当前任务存在较大的跳动,甚至需要未来的信息才能完成预测。这时经典的RNN就无法满足需要why??? http://ai.dinfo.unifi.it/paolo//ps/tnn-94-gradient.pdf用梯度下降学习长期依赖模型是困难的)而需要特殊的时间序列模型LSTM。LSTMs 就是用来解决长期依赖问题,这类模型可以记住长期信息。


         经典的RNN模型中的激活函数可能就是一个简单的tanh函数,但是LSTMs引入了四个门结构,具有增加或者移除信息状态的功能。门限可以有选择的让信息通过,它是由sigmoid神经网络层和pointwise乘法操作构成的。sigmoid层输入数值0-1 代表可以通过的比例,输入为0时代表不允许通过,输出为1时代表允许全部通过。

 

X 代表输入; h代表输出;C 代表状态其大小是[h,x]

 

1、  forget gate 忘记门:

忘记门输入是ht-1和xt,输出是ft(介于0-1),ft作用于Ct-1。

当ft 为1 时,代表完全保留该值;

当ft 为0时, 代表完全舍去该值

2、  input gate 输入门:


存储什么样的新信息包括两步,第一步输入门决定哪些值可以更新,第二步tanh层创造候选向量

It是sigmoid函数输出结果表示是否产生输入,其取值范围是0-1

Ct~是新产生的候选向量

忘记门ft乘Ct-1 :忘掉决定忘掉的早期信息

其结果加上it*Ct~(候选向量通过it缩放后表示多大程度上更新状态值)


通过忘记门和输入门的组合可以表达出这样的信息:多大程度上忘记旧的信息以及多大程度上更新新的信息

 

Output gate 输出门:

首先sigmoid函数决定输出的缩放比例ot,然后cell 状态通过tanh函数,其结果与ot相乘。

 

LSTMs 变形之增加窥视孔的LSTM

在每个sigmoid函数的输入中增加cell的内容

 

LSTMs 变形之取消输入门

用1-ft 代替it 也就是当发生忘记的时候才产生输入,否则不产生输入


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值