文本生成:
基本概念:通过上文生成下文,你瞅啥->瞅你咋地,你=x1,瞅=x2,啥=x3。
通过ML方法预测下文
普通神经网络:input为x1,x2,x3通过中间的隐层(hidden)输出结果output
o=f(x+w*s)每一步进行展开就是RNN的结构,
如图所示,St-1=u(xt-1),St=f(W*st-1+u*xt-1)
隐层:h1=f(w1x1+w2x2+w3x3)
激化方程为Δ×LR(=0.001)
W=Wt-1+Δ×LR->真实值
神经元最终输出基于最后一个s
Ot=softmax(Vst)
RNN:{x1->unfold
x2->unfold
.....
x3->unfold}
简单来说,对于t=5来说,其实就是相当于把一个神经元拉伸成5个,换句话说,S就是我们所说的记忆。context(RNN) RNN的计算量
LSTM(长效-短期-记忆)
分为三个单元:忘记门,记忆门,更新门
LSTM中最重要的是cell state,它一路向下,贯穿这个时间线,代表了记忆的纽带,它会被XOR和AND运算符进行运算来更新记忆。
而控制信息的增加和减少的,就是靠这一些阀门:Gate
阀门就是输出一个0与1之间的值:
1代表,把这一趟信息都记住
0代表都忘记
①忘记门:f(Wst-1+Uxt-1)=Ot-1
St-1=f(Wst+Uxt)=Ot
②记忆门:1.用sigmoid决定更新信息(忘记旧的)
2.用Tanh造一个cell state
③更新门
t=fc*Ct-1+it*(~Ct)
④输出门