![a7ebae4775bed7249366a72993fd75b1.png](https://i-blog.csdnimg.cn/blog_migrate/5ab0dde442c955e0f3b929af1f38e5c2.jpeg)
作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
高举“让 Keras 更酷一些!”大旗,让 Keras 无限可能。
今天我们会用 Keras 做到两件很重要的事情:分层设置学习率和灵活操作梯度。
首先是分层设置学习率,这个用途很明显,比如我们在 fine tune 已有模型的时候,有些时候我们会固定一些层,但有时候我们又不想固定它,而是想要它以比其他层更低的学习率去更新,这个需求就是分层设置学习率了。
对于在 Keras 中分层设置学习率,网上也有一定的探讨,结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。
然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪,也就是把梯度控制在某个范围内,Keras 内置了这个方法。但是 Keras 内置的是全局的梯度裁剪,假如我要给每个梯度设置不同的裁剪方式呢?甚至我有其他的操作梯度的思路,那要怎么实施呢?不会又是重写优化器吧?
本文就来为上述问题给出尽可能简单的解决方案。
分层的学习率
对于分层设置学习率这个事情,重写优化器当然是可行的,但是太麻烦。如果要寻求更简单的方案,我们需要一些数学知识来指导我们怎么进行。
参数变换下的优化
首先我们考虑梯度下降的更新公式:
![49a00f19c17ae5282cb30d60e2482931.png](https://i-blog.csdnimg.cn/blog_migrate/0c9b53bf08a3e61a60ae69b6860873aa.jpeg)
其中 L 是带参数 θ 的 loss 函数,α 是学习率,
然后我们考虑变换 θ=λϕ,其中 λ 是一个固定的标量,ϕ 也是参数。现在我们来优化 ϕ,相应的更新公式为:
![01be38c74b3d3ed8adf040996ad1e6a7.png](https://i-blog.csdnimg.cn/blog_migrate/8a5671b39f8e0fc71e434776324920ea.jpeg)
其中第二个等号其实就是链式法则。现在我们在两边乘上 λ,得到: