和学习率_“让Keras更酷一些!”:分层的学习率和自由的梯度

a7ebae4775bed7249366a72993fd75b1.png

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm

高举“让 Keras 更酷一些!”大旗,让 Keras 无限可能。

今天我们会用 Keras 做到两件很重要的事情:分层设置学习率灵活操作梯度

首先是分层设置学习率,这个用途很明显,比如我们在 fine tune 已有模型的时候,有些时候我们会固定一些层,但有时候我们又不想固定它,而是想要它以比其他层更低的学习率去更新,这个需求就是分层设置学习率了。

对于在 Keras 中分层设置学习率,网上也有一定的探讨,结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。

然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪,也就是把梯度控制在某个范围内,Keras 内置了这个方法。但是 Keras 内置的是全局的梯度裁剪,假如我要给每个梯度设置不同的裁剪方式呢?甚至我有其他的操作梯度的思路,那要怎么实施呢?不会又是重写优化器吧?

本文就来为上述问题给出尽可能简单的解决方案。

分层的学习率

对于分层设置学习率这个事情,重写优化器当然是可行的,但是太麻烦。如果要寻求更简单的方案,我们需要一些数学知识来指导我们怎么进行。

参数变换下的优化

首先我们考虑梯度下降的更新公式:

49a00f19c17ae5282cb30d60e2482931.png

其中 L 是带参数 θ 的 loss 函数,α 是学习率,

是梯度,有时候我们也写成
。记号是很随意的,关键是理解它的含义。

然后我们考虑变换 θ=λϕ,其中 λ 是一个固定的标量,ϕ 也是参数。现在我们来优化 ϕ,相应的更新公式为:

01be38c74b3d3ed8adf040996ad1e6a7.png

其中第二个等号其实就是链式法则。现在我们在两边乘上 λ,得到:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值