作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
高举“让 Keras 更酷一些!”大旗,让 Keras 无限可能。
今天我们会用 Keras 做到两件很重要的事情:分层设置学习率和灵活操作梯度。
首先是分层设置学习率,这个用途很明显,比如我们在 fine tune 已有模型的时候,有些时候我们会固定一些层,但有时候我们又不想固定它,而是想要它以比其他层更低的学习率去更新,这个需求就是分层设置学习率了。
对于在 Keras 中分层设置学习率,网上也有一定的探讨,结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。
然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪,也就是把梯度控制在某个范围内,Keras 内置了这个方法。但是 Keras 内置的是全局的梯度裁剪,假如我要给每个梯度设置不同的裁剪方式呢?甚至我有其他的操作梯度的思路,那要怎么实施呢?不会又是重写优化器吧?
本文就来为上述问题给出尽可能简单的解决方案。
分层的学习率
对于分层设置学习率这个事情,重写优化器当然是可行的,但是太麻烦。如果要寻求更简单的方案,我们需要一些数学知识来指导我们怎么进行。
参数变换下的优化
首先我们考虑梯度下降的更新公式:
其中 L 是带参数 θ 的 loss 函数,α 是学习率,是梯度,有时候我们也写成。记号是很随意的,关键是理解它的含义。
然后我们考虑变换 θ=λϕ,其中 λ 是一个固定的标量,ϕ 也是参数。现在我们来优化 ϕ,相应的更新公式为:
其中第二个等号其实就是链式法则。现在我们在两边乘上 λ,得到:
对比 (1) 和 (3),大家能明白我想说什么了吧:
在 SGD 优化器中,如果做参数变换 θ=λϕ,那么等价的结果是学习率从 α 变成了。
不过,在自适应学习率优化器(比如 RMSprop、Adam 等),情况有点不一样,因为自适应学习率使用梯度(作为分母)来调整了学习率,抵消了一个 λ,从而(请有兴趣的读者自己推导一下):