DL是在一个非常高维的世界里做梯度下降。局部最小值很难形成,因为局部最小值要求函数在所有维度上都是局部最小。更实际得情况是,函数会落到一个鞍点上,如下图:
理解DL的局部最小
最新推荐文章于 2023-05-30 10:19:16 发布
深度学习在高维空间的梯度下降过程中,遇到的主要问题是鞍点而非局部最小值。大多数局部极小值在损失函数底部,接近全局最小。研究指出,糟糕局部极小值的吸引域较小。优化策略包括设计恰当的损失函数,选择初始权重分布,如均匀或高斯,使用梯度截断和动量优化,以及批量归一化来避免平坦区域和提高优化效果。
摘要由CSDN通过智能技术生成