写在前面:这篇blog没有很多文字,都是图片,截取自我们一个课的ppt。本科的时候看lstm的paper也曾写过一些博客,但是感觉paper看完当时可能记住了,但很难帮助记忆。研究生上了一门kdd的课程,正好老师讲到了rnn,给的这些图和例子,非常浅显易懂。特此编辑一下,也算是知识的传播了。
BASIC RNN
基本的RNN 模型就是在神经网络上加个loop.
缺点也很明显,模型也太简单了。rnn,就是为了用上history information,但是只用一个简单的激活函数去用到了上一个timestamp的历史值,想得到好的训练结果比较难。(以下摘自kdd课件)
LSTM
存在3个特征门控制:
forget feature:用来决策‘忘掉’一些变量信息。
input feature:用来决策‘选择’输入变量的部分信息作为真正的输入,决策输入变量的权重。
output feature: 用来决策‘选择’输出变量的部分信息作为真正的输出,决策输出变量的权重。
一共包括了六个门gate:
forget gate: