第7章 网络优化与正则化

本文探讨了深度神经网络在优化和泛化方面的难题。优化问题涉及非凸损失函数、大量的参数以及梯度消失或爆炸,而泛化问题则与网络复杂度和过拟合相关。为了解决这些问题,文章提到了随机梯度下降的重要性和正则化方法的使用。同时,优化算法如小批量梯度下降也在讨论之中,重点关注批量大小和学习率的影响。
摘要由CSDN通过智能技术生成

搭建神经网络的两个难点

(1) 优化问题:首先,神经网络的损失函数非凸,找到全局最优解通常比较困难.其次,深度神经网络的参数非常多,训练数据也比较大,因此也无法使用计算代价很高的二阶优化方法, 而一阶优化方法的训练效率通常比较低.此外,深度神经网络存在梯度消失或爆炸问题,导致基于梯度的优化方法经常失效.

(2) 泛化问题:由于深度神经网络的复杂度比较高,并且拟合能力很强,容易在训练集上产生过拟合.因此需要通过一定的正则化方法来改进网络的泛化能力.

7.1 网络优化

网络优化的两个难点:网络结构多,没有通用的优化算法;超参数多

低维空间的非凸优化问题:逃离局部最优点.

主要难点是如何选择 初始化参数和逃离局部最优点。

高维空间中的非凸优化问题:逃离鞍点(Saddle Point)

鞍点的特征是一阶梯度为 0,但是二阶梯度的 Hessian 矩阵不是半正定矩阵; 鞍点的梯度是0,但是在一些维度上是最高点,在另一些维度上是最低点。

随机梯度下降对于高维空间中的非凸优化问题十分重要,通过在梯度方向上引入随机性,可以有效地逃离鞍点。

平坦最小值

局部最小解 

7.2 优化算法

7.2.1 小批量梯梯度下降  Mini-Batch Gradient Descent

梯度下降法可以分为:批量梯度下降、随机 梯度下降以及小批量梯度下降三种形式

影响小批量梯度下降法的主要因素有:1)批量大小𝐾、2)学习率𝛼、3)梯度估计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值