Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

以上结构类似于RNN(LSTM)结构,其中θ类似于隐向量,training data就是输入X以下具体说明。

 

一、LSTM review

Ct-1和Ct改变会很小,所以保持了长期依赖,ht-1和ht变化大代表了短期依赖。

 

zi输入门,zf遗忘门,zo输出门

ct=z和zi做点乘+zf和ct-1点乘(选择选择ct-1还是遗忘)

ht=zo和tanh(ct)

yt=激活(W’ht)

 

二、LSTM与Gradient descent的联系

1.另ct-1换成θt-1

2.X和ht-1换成 负梯度

3.zf永远设成1

4.zi永远设成η

这样就可以传统的GD和lstm对应,zf和zi是人设的,但是在LSTM上可以用来学习这个参数,就是可调学习率和衰减率(对θt-1),从而进行动态学习。

 

三、Gradient Descent的LSTM

GD的LSTM中,θ会影响负梯度(输入),而LSTM中的C和X是无关的。这点是和LSTM不一样的。

目前文献上的做法都是假设θ对负梯度影响不存在的,方便训练和搭建。

 

四、Real implementation

在实际场景中θ的参数会有几万个,无法将lstm里面的cell单元开到那么大,在实际应用中是只对一个参数做为cell

其他参数都会用这套LSTM。因为他们的初始参数不一样,gradient不一样,所以就算lstm的参数是一样的,也可以得到不一样的θ。

 

MAML只能用同一个model,但是用这种方法可以使用不同的model。

 

五、experiment result

可以学出来遗忘门都是1,这是符合GD人工定义的。但是学习率是不太一样的。

 

learning to learn by gradient descent by gradient descent

六、更多想法

对GD加入动量的想法,下面的LSTM积累动量(感觉和合理)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值