《深度学习与神经网络》（网络优化与正则化）

厄运鹰人

于 2021-09-03 10:14:18 发布

阅读量143

点赞数 1

分类专栏：深度学习（pytorch+tensorflow）文章标签：神经网络深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27166635/article/details/120074313

版权

深度学习（pytorch+tensorflow）专栏收录该内容

12 篇文章 0 订阅

订阅专栏

神经网络存在的问题：

优化问题：神经网络模型是一个非凸函数，梯度消失，参数比较多，训练
数据也比较大，会导致训练的效率比较低。
泛化问题:容易过拟合。

优化的难点

网络结构多样性：CNN、RNN等
低维空间的非凸优化问题主要是存在一些局部最优点，出发点应该是如何初始参数和逃离局部最优点。
高维的非凸优化问题主要是逃离鞍点

优化算法

**小批量梯度下降：**损失函数关于参数θ 的偏导数为更新的梯度 $g_t$ ，学习率是更新参数时的一个常量。使用梯度下降来更新参数：
$θt ← θ_{t−1} − αg_t$
∆θt 为每次迭代时参数的实际更新方向，在标准的小批量梯度下降中， $θt= −αg_t$ 。
***注意：***批量大小较小时，需要设置较小的学习率较，否则模型会不收敛。
加快优化速度方法：学习率衰减和梯度方向优化

学习率衰减

迭代次数衰减

逆时衰减（inverse time decay）
$\alpha_t=\alpha _0\frac{1}{1+\beta \times t}$
指数衰减（exponential decay）,其中β 为衰减率，一般取值为0.96。
$α_t = α_0β^t$

梯度方向优化

通过使用最近一段时间内的平均梯度来代替当前时刻的梯度来作为参数更新的方向并提高优化速度，这就是动量法。

问题：如图，在小批量梯度下降中，如果每次选取样本数量比较小，损失会呈现震荡的方式下降。

自适应动量估计（Adaptive Moment Estimation， Adam）算法

可以看作是动量法和 RMSprop 的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《深度学习与神经网络》（网络优化与正则化）

神经网络存在的问题：优化问题：神经网络模型是一个非凸函数，梯度消失，参数比较多，训练数据也比较大，会导致训练的效率比较低。泛化问题:容易过拟合。优化的难点网络结构多样性：CNN、RNN等低维空间的非凸优化问题主要是存在一些局部最优点，出发点应该是如何初始参数和逃离局部最优点。高维的非凸优化问题主要是逃离鞍点优化算法**小批量梯度下降：**损失函数关于参数θ 的偏导数为更新的梯度gtg_tgt，学习率是更新参数时的一个常量。使用梯度下降来更新参数：θt←θt−1−α
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。