![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习中的最优化
Nick-Hwong
机器学习 深度学习 图像处理
展开
-
深度学习中的优化(动量,RMSProp等算法)
1. 动量1. 动量使用了动量以后。假如梯度一直都是g,那么会一直在-g上不停加速,直到达到最终速度,其中步长变为,如当a=0.9时对应最大速度十倍于梯度下降算法。实际中,一开始是一个较小的值。 同时,使用动量以后,会累积之前的梯度,假如梯度发生震荡,v受到的影响可以减小。可参考吴恩达视频中关于动量的解释。2. Nesterov动量与1中的动量相比,Nest...原创 2018-07-16 16:32:35 · 6707 阅读 · 2 评论 -
L1,L2正则化的区别
正则化:L1:权重的绝对值的sumL2:权重平方的sum L1相比L2更容易造成权重的集中化,L2倾向于将权重分散分开来原创 2018-08-05 11:57:57 · 136 阅读 · 0 评论