Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

最新推荐文章于 2023-04-22 09:03:32 发布

宋老板的笔记

最新推荐文章于 2023-04-22 09:03:32 发布

阅读量361

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41684423/article/details/115487508

版权

以上结构类似于RNN(LSTM)结构，其中θ类似于隐向量，training data就是输入X以下具体说明。

一、LSTM review

Ct-1和Ct改变会很小，所以保持了长期依赖，ht-1和ht变化大代表了短期依赖。

zi输入门，zf遗忘门，zo输出门

ct=z和zi做点乘+zf和ct-1点乘（选择选择ct-1还是遗忘）

ht=zo和tanh(ct)

yt=激活（W’ht）

二、LSTM与Gradient descent的联系

1.另ct-1换成θt-1

2.X和ht-1换成负梯度

3.zf永远设成1

4.zi永远设成η

这样就可以传统的GD和lstm对应，zf和zi是人设的，但是在LSTM上可以用来学习这个参数，就是可调学习率和衰减率（对θt-1），从而进行动态学习。

三、Gradient Descent的LSTM

GD的LSTM中，θ会影响负梯度（输入），而LSTM中的C和X是无关的。这点是和LSTM不一样的。

目前文献上的做法都是假设θ对负梯度影响不存在的，方便训练和搭建。

四、Real implementation

在实际场景中θ的参数会有几万个，无法将lstm里面的cell单元开到那么大，在实际应用中是只对一个参数做为cell

其他参数都会用这套LSTM。因为他们的初始参数不一样，gradient不一样，所以就算lstm的参数是一样的，也可以得到不一样的θ。

MAML只能用同一个model，但是用这种方法可以使用不同的model。

五、experiment result

可以学出来遗忘门都是1，这是符合GD人工定义的。但是学习率是不太一样的。

learning to learn by gradient descent by gradient descent

六、更多想法

对GD加入动量的想法，下面的LSTM积累动量（感觉和合理）

宋老板的笔记

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

以上结构类似于RNN(LSTM)结构，其中θ类似于隐向量，training data就是输入X以下具体说明。一、LSTM reviewCt-1和Ct改变会很小，所以保持了长期依赖，ht-1和ht变化大代表了短期依赖。zi输入门，zf遗忘门，zo输出门ct=z和zi做点乘+zf和ct-1点乘（选择选择ct-1还是遗忘）ht=zo和tanh(ct)yt=激活（W’ht）二、LSTM与Gradient descent的联系1.另ct-1换成θt-1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。