深度学习基础
本次任务学习的是局部极小值与鞍点,主要包括临界点及其种类,判断临界值种类的方法和逃离鞍点的方法。
局部极小值与鞍点:当遇到训练损失不再下降或模型训练不起来的情况时,需要从数据质量、模型设计、优化算法选择、参数初始化、学习率调整等多个方面进行综合分析和调整。
临界点及其种类:在深度学习中,梯度下降(及其变体如随机梯度下降、Adam等)是常用的优化算法,用于最小化损失函数。当提到梯度为零时,人们往往会首先联想到局部极小值点,这是因为在这些点上,函数值达到局部最低,且所有方向的梯度均为零,导致优化算法无法进一步降低损失。然而,梯度为零的情况不仅仅出现在局部极小值点,还存在于其他类型的点上,最显著的是鞍点。
判断临界值种类的方法:找到损失函数的图像,直接画出神经网络的误差表面,或者也可以直接写出损失函数,继而得出要计算海森矩阵。
逃离鞍点的方法:传统的梯度下降算法在鞍点附近可能会停滞不前,因为它们依赖于梯度的方向来更新参数。然而,通过引入动量(Momentum)、自适应学习率(如Adam优化器中的方法)或二阶优化技术(如牛顿法或其近似),可以帮助算法更好地逃离鞍点,并继续向全局或更好的局部最小值逼近。虽然局部极小值在理论上存在,但在深度学习的实际应用中,鞍点更为常见,且对优化过程的影响更为显著。因此,理解和应对鞍点成为提高深度学习模型训练效率和性能的关键之一。