![v2-a7416f82290119464db27839ea43d82b_b.jpg](https://img-blog.csdnimg.cn/img_convert/30d4f37a65dcaafceff6a3d0c27cf9fc.png)
目前越来越多非结构化问题的出现,神经网络也扮演着愈加重要的作用。一个好的神经网络对于最终任务的预测至关重要,但要得到一个好的神经网络则需要考虑众多的因素,本文我们重点介绍神经网络中调参重学习率衰减的调节策略。本文介绍目前tensorflow中的9大学习率衰减策略。
exponential_decay = learning_rate_decay.exponential_decay
piecewise_constant = learning_rate_decay.piecewise_constant
polynomial_decay = learning_rate_decay.polynomial_decay
natural_exp_decay = learning_rate_decay.natural_exp_decay
inverse_time_decay = learning_rate_decay.inverse_time_decay
cosine_decay = learning_rate_decay.cosine_decay
cosine_decay_restarts = learning_rate_decay.cosine_decay_restarts
linear_cosine_decay = learning_rate_decay.linear_cosine_decay
noisy_linear_cosine_decay = learning_rate_decay.noisy_linear_cosine_decay
![v2-b8fcd5c60003d4cc2c79ce44361d0207_b.jpg](https://img-blog.csdnimg.cn/img_convert/2ba7dbe44cf3424d84f6f91d81bfca32.png)
在对应区间置中不同的学习率的常数值,一般初始学习率会大一些,后面越来越小,要根据样本量的大小设置区间的间隔大小,样本量越大,区间间隔要小一点。在真正的网络训练中,需要操作人员根据具体任务对学习率具体设置。下图即为分段常数衰减的学习率变化图,横坐标代表训练次数,纵坐标代表学习率。
![v2-600a8740d5b7d18242a762e0ccf1e210_b.jpg](https://img-blog.csdnimg.cn/img_convert/f08919b63bcda60c5b41f54cd0304eee.png)
该方法有助于针对不同任务进行精细地调参,在任意步长后下降任意数值的learning rate。
![v2-b82489a0230fc1291f41cc96495fc7d3_b.jpg](https://img-blog.csdnimg.cn/img_convert/47ece0587d12a54589f7e723b6a01a53.png)
指数衰减的方式,学习率的大小和训练次数指数相关,指数衰减简单直接,收敛速度快,是最常用的学习率衰减方式,其数学公式为:
![v2-4935dffed536e4e2b4a1b838863a2d6c_b.jpg](https://img-blog.csdnimg.cn/img_convert/62d92202919767e036287545e8771011.png)
如下图所示,红色的为学习率随训练次数的指数衰减方式,蓝色的即为分段常数衰减 。
![v2-df1598e794d83224da7954a57e18f90b_b.jpg](https://img-blog.csdnimg.cn/img_convert/e003ec38bec69dacaf59d3a05fb24fcd.png)
![v2-6fdad175f551cba7675ec0b73408f7d1_b.jpg](https://img-blog.csdnimg.cn/img_convert/fc0bce17bc308a2c842edec1e7ef990e.png)
自然指数衰减和指数衰减方式相似,不同的在于它的衰减底数是e,所以它的收敛的速度更快,一般用于相对比较容易训练的网络,便于较快的收敛,其更新公式为:
![v2-4de718071676fe9385f414b46c00363d_b.jpg](https://img-blog.csdnimg.cn/img_convert/00e0bf0886e47e1a3ab241d707156ab8.png)
和分段常数以及指数衰减相比,其中绿色的是自然指数衰减。
![v2-72b2542195879687bd511b9a7e1468ef_b.jpg](https://img-blog.csdnimg.cn/img_convert/77c6a76a9c284f777a50fe1178252ef5.png)
![v2-0f0964e4b5f7850881c6e5b7b028df43_b.jpg](https://img-blog.csdnimg.cn/img_convert/ecbf1996bbb0db608344ae40a5f9d753.png)
多项式衰减的方式进行更新学习率,需要给定初始学习率和最低学习率,然后按照给定的衰减方式将学习率从初始值衰减到最低值,其更新规则即为:
![v2-9b1969d6eb3a5b5f70b1406b07e21f1a_b.jpg](https://img-blog.csdnimg.cn/img_convert/9f4c4de39790ed8f32e839e21bdbcc04.png)
此处需要注意有两个机制:
- 降到最低学习率后,到训练结束可以一直使用最低学习率进行更新;
- 另一个是再次将学习率调高,使用decay_steps的倍数,取第一个大于global_steps的结果,即:
![v2-1bd6ca4a0647da0f001b0a348aceff69_b.jpg](https://img-blog.csdnimg.cn/img_convert/082de70af4bc2db1d3d28ed05d6a9ae0.png)
可以用它来防止神经网络在训练的后期由于学习率过小而导致的网络一直在某个局部最小值附近震荡,在后期增大学习率跳出局部极小值。
![v2-8fcbb2bdc2bb198f231878a20f540cc0_b.jpg](https://img-blog.csdnimg.cn/img_convert/bccd818c236e93aad129b000ed45abbf.png)
![v2-d031f20bb1cd8316272aafbcb3ee3c40_b.jpg](https://img-blog.csdnimg.cn/img_convert/79873c3d3a5e365430eb37e191f29cdb.png)
倒数衰减的数学公式为:
![v2-7b173188597145e76c287f8fe3338280_b.jpg](https://img-blog.csdnimg.cn/img_convert/e8d0861bd87fb095ba87f59688352d0a.png)
![v2-b7a0127384d7b84da94c6542db738f41_b.jpg](https://img-blog.csdnimg.cn/img_convert/736cbb0b913198464e29ae61f7ee48ea.png)
![v2-07d9c89c8c1ceda9f8d6b17d2805e2c0_b.jpg](https://img-blog.csdnimg.cn/img_convert/08a25a2cb6b38d2b0fb328bedc40a430.png)
顾名思义,就是采用余弦方式进行学习率的衰减。其更新机制如下:
![v2-64ea8557f760931120ca4368869dd926_b.jpg](https://img-blog.csdnimg.cn/img_convert/2670a7930d2aa3484844c2b9e56ff0ce.png)
其中alpha可以看作是baseline,保证学习率不会低于某个值。不同alpha的影响如下:
![v2-8ef91eca2099ac47ca4f7b7c52d4e7d7_b.jpg](https://img-blog.csdnimg.cn/img_convert/bec5122700d7b63820fd5723db32a3a3.png)
![v2-771bb0ee762e7b391f2ba3d4e3a7992b_b.jpg](https://img-blog.csdnimg.cn/img_convert/1f8232e9ed593b163c281b80f3c6cef0.png)
学习率以循环周期进行衰减。是循环学习率的cycle版本。
![v2-9566ddc90fb98c3306ee52709886a801_b.jpg](https://img-blog.csdnimg.cn/img_convert/e6bec4b4f05fc4a91e5c2e47340d2a58.png)
余弦函数式的下降模拟了大lr找潜力区域然后小lr快速收敛的过程,加之restart带来的cycle效果,有涨1-2个点的可能。
![v2-b69f7687e0b7dd5726e94c622944a004_b.jpg](https://img-blog.csdnimg.cn/img_convert/6c1b7416333b203b366220251d0409cc.png)
线性余弦衰减方式是基于余弦方式的衰减策略,其数学公式为:
![v2-2ce59c1f7a84ecf0943fdd4974cc2b7d_b.jpg](https://img-blog.csdnimg.cn/img_convert/1905563f16528540a25246fe6d86ff3e.png)
线性余弦衰减一般应用领域是增强学习领域,
![v2-e16aab81a895886b1aa8d21116cc8de3_b.jpg](https://img-blog.csdnimg.cn/img_convert/49c421ec990b21a9af6151e18b77d3d8.png)
![v2-41307c8b2c9f5fb24c4cf735fffd3c0e_b.jpg](https://img-blog.csdnimg.cn/img_convert/a20a833191e7a281cebc9c47a06fc667.png)
在线性余弦衰减的基础上,加入了噪声。就得到了噪声线性余弦衰减。噪声线性余弦衰减提升了学习率寻找最优值的随机性和可能性。
![v2-d6c29ddecf68076503e7bcc14f5e1599_b.jpg](https://img-blog.csdnimg.cn/img_convert/5a234340ddb5e74dde57f2220981f860.png)
![v2-a869f750105ded2c989a7da2dddfb6b5_b.jpg](https://img-blog.csdnimg.cn/img_convert/8be15c488f283f0c0308ba480cb10581.png)
![v2-ec7b0e81a8b039cc81fec306a64d2189_b.jpg](https://img-blog.csdnimg.cn/img_convert/62f34c07f46cb78ae344c4315e86609c.png)
大家还可以依据自己的想法自定义学习率衰减策略,例如可以依据验证集合的表现,来更新学习率,如果验证集合上评估指标在不断变好,则保持lr,否则降低学习率。
![v2-76999d998e470eef7af32d434442337c_b.jpg](https://img-blog.csdnimg.cn/img_convert/a601e54f65035cfd4b63d417142bf5a3.png)
![v2-ec8ce60d0f69420d8bc13b6cd5f3bb44_b.jpg](https://img-blog.csdnimg.cn/img_convert/49a221cebc52343f7287302e455d2b72.png)