Datawhale X 李宏毅苹果书 AI夏令营 Task1

最新推荐文章于 2024-10-04 22:36:54 发布

2301_81185698

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量262

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_81185698/article/details/141570871

版权

引言

本章节文章主要提及了深度学习优化中局部极小值和鞍点问题的探讨，通过学习本章知识，可以帮助进行更好的优化，从而达到更好的结果。

局部极小值与鞍点

在优化过程中，我们会遇到损失函数不再下降的情况，可能是由于梯度下降算法收敛到了局部极小值或鞍点。

临界点及其种类

局部极小值、局部极大值以及鞍点

鞍点就是区别于局部极小值和局部极大值的点。局部极小值与鞍点较难区分，因为如果损失收敛在局部极小值，我们所在的位置已经是损失最低的点了，往四周走损失都会比较高，就没有路可以走了。但鞍点没有这个问题，旁边还是有路可以让损失更低的。只要逃离鞍点，就有可能让损失更低。

判断临界值种类的办法(由于未完全理解，遂进行部分照搬)

虽然找到损失函数十分困难，但是我们可以通过给定一定参数，可以在某点附近近似表示损失函数形状。

比如 θ′，在 θ′ 附近的损失函数是有办法写出来的——虽然 L(θ) 完整的样子写不出来。θ′ 附近的 L(θ) 可近似为

其中，第一项 L(θ)′ 告诉我们，当 θ 跟 θ′ 很近的时候，L(θ) 应该跟 L(θ′) 还蛮靠近的；第二项 (θ − θ′)^Tg 中，g 代表梯度，它是一个向量，可以弥补 L(θ′) 跟 L(θ) 之间的差距。有时候梯度 g 会写成 ∇L(θ′)。gi 是向量 g 的第 i 个元素，就是 L 关于 θ 的第 i 个元素的微分，即

光看 g 还是没有办法完整地描述 L(θ)，还要看式 (3.1) 的第三项 12θ − θ′T Hθ − θ′。第三项跟海森矩阵（Hessian matrix）H 有关。H 里面放的是 L 的二次微分，它第 i 行，第 j 列的值 HiHij 就是把 θ 的第 i 个元素对 Lθ′作微分，再把 θ 的第 j 个元素对 ∂L(θ′)∂θi 作微分后的结果，即

逃离鞍点的方法

实际上，局部极小值点并不常见。当我们训练一个网络时，会有许多参数，参数越多，说明可以走的路越多，这也说明了局部极小值点的稀少。实际上，很多时候几乎找不到所有特征点都是正的临界点，最小比例值会在0.5~0.6，说明有一半的路会让损失值上升，一般会下降。因此，多数时候当我们训练梯度小的时候，多半是鞍点。