深度学习之 深度模型中的优化

本文介绍了深度学习优化中的挑战,如病态、局部极小值等,并详细讨论了随机梯度下降、动量算法、Nesterov动量、参数初始化策略、自适应学习率算法(AdaGrad、RMSProp、Adam)以及二阶近似法。优化策略包括批标准化、坐标下降、Polyak平均和预训练等,强调选择易于优化的模型和初始点的重要性。
摘要由CSDN通过智能技术生成


  本章介绍深度模型中的常见算法及优化,部分先简单介绍其概念,后续再继续展开。

1、神经网络优化中的挑战


 首先看下深度网络优化中的挑战

1、病态

 比如梯度范数随着时间不收敛

2、局部极小值

3、高点、鞍点和其他平坦区域

鞍点:某个横截面(方向)上局部最小值,某个横截面上取局部极大值

4、悬崖和梯度爆炸

5、长期依赖

 由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难


2、基本算法

2.1 随机梯度下降

 随机梯度下降(SGD)及其变种是机器学习中最常用的优化算法。每次随机提取m个小批量(独立分布的)样本,

进行优化。实际工作这个方法非常有效,比如它比较容易绕过局部极小值,鞍点。


 随机梯度下降(SGD)在第k 个训练迭代的更新
在这里插入图片描述
 SGD算法中的一个关键参数是学习率。之前,我们介绍的SGD使用固定的学习率。

在实践中,有必要随着时间的推移逐渐降低学习率,因此我们将第k 步迭代的学习率记

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值