神经网络中优化方法

最新推荐文章于 2023-12-11 22:30:43 发布

疯狂的大山鸡

最新推荐文章于 2023-12-11 22:30:43 发布

阅读量211

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/hlpower/article/details/103102607

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

神经网络中的学习率

有哪些损失函数
有哪些类型的优化方法
通过实验对比不同学习率的区别

有哪些损失函数

常见的损失函数之MSE\Binary_crossentropy\categorical_crossentropy

有哪些类型的优化方法

这里参照caffe的代码来介绍：

optional float base_lr = 5; // The base learning rate 
 // The learning rate decay policy. The currently implemented learning rate
  // policies are as follows:
  //    - fixed: always return base_lr.
  //    - step: return base_lr * gamma ^ (floor(iter / step))
  //    - exp: return base_lr * gamma ^ iter
  //    - inv: return base_lr * (1 + gamma * iter) ^ (- power)
  //    - multistep: similar to step but it allows non uniform steps defined by
  //      stepvalue
  //    - poly: the effective learning rate follows a polynomial decay, to be
  //      zero by the max_iter. return base_lr (1 - iter/max_iter) ^ (power)
  //    - sigmoid: the effective learning rate follows a sigmod decay
  //      return base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
  //
  // where base_lr, max_iter, gamma, step, stepvalue and power are defined
  // in the solver parameter protocol buffer, and iter is the current iteration.
  optional string lr_policy = 8;
  optional float gamma = 9; // The parameter to compute the learning rate.
  optional float power = 10; // The parameter to compute the learning rate.
  optional float momentum = 11; // The momentum value.
  optional float weight_decay = 12; // The weight decay.
  // regularization types supported: L1 and L2
  // controlled by weight_decay
  optional string regularization_type = 29 [default = "L2"];
  // the stepsize for learning rate policy "step"

fix:固定学习率在base_lr
step: return base_lr * gamma ^ (floor(iter / step))
momentum: 动量是为了在梯度来回波动时，累计到一个相对不变的梯度方向。
在这里插入图片描述
而由于动量积攒了历史的梯度，如点P前一刻的梯度与当前的梯度方向几乎相反。因此原本在P点原本要大幅徘徊的梯度，主要受到前一时刻的影响，而导致在当前时刻的梯度幅度减小。

参考：Deep Learning 最优化方法之Momentum

weight_decay ：用于做L1，L2正则化，公式如下，其中L2正则化是在代价函数后加入正则化项目，通过正则化使对w较大加大惩罚，从而达到降低w，从而降低过拟合。
在这里插入图片描述
为何可以w小可以降低过拟合？
原理：（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。
在这里插入图片描述