以上结构类似于RNN(LSTM)结构,其中θ类似于隐向量,training data就是输入X以下具体说明。
一、LSTM review
Ct-1和Ct改变会很小,所以保持了长期依赖,ht-1和ht变化大代表了短期依赖。
zi输入门,zf遗忘门,zo输出门
ct=z和zi做点乘+zf和ct-1点乘(选择选择ct-1还是遗忘)
ht=zo和tanh(ct)
yt=激活(W’ht)
二、LSTM与Gradient descent的联系
1.另ct-1换成θt-1
2.X和ht-1换成 负梯度
3.zf永远设成1
4.zi永远设成η
这样就可以传统的GD和lstm对应,zf和zi是人设的,但是在LSTM上可以用来学习这个参数,就是可调学习率和衰减率(对θt-1),从而进行动态学习。
三、Gradient Descent的LSTM
GD的LSTM中,θ会影响负梯度(输入),而LSTM中的C和X是无关的。这点是和LSTM不一样的。
目前文献上的做法都是假设θ对负梯度影响不存在的,方便训练和搭建。
四、Real implementation
在实际场景中θ的参数会有几万个,无法将lstm里面的cell单元开到那么大,在实际应用中是只对一个参数做为cell
其他参数都会用这套LSTM。因为他们的初始参数不一样,gradient不一样,所以就算lstm的参数是一样的,也可以得到不一样的θ。
MAML只能用同一个model,但是用这种方法可以使用不同的model。
五、experiment result
可以学出来遗忘门都是1,这是符合GD人工定义的。但是学习率是不太一样的。
learning to learn by gradient descent by gradient descent
六、更多想法
对GD加入动量的想法,下面的LSTM积累动量(感觉和合理)