[Lecture 7 ] Training Neural Networks II（训练神经网络II）

最新推荐文章于 2023-01-15 14:01:48 发布

灵隐寺扫地僧

最新推荐文章于 2023-01-15 14:01:48 发布

阅读量517

点赞数

分类专栏： # CS231n 文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_41341454/article/details/105627894

版权

本文详细探讨了深度学习中优化算法的多种方法，包括SGD、动量优化、AdaGrad、RMSProp和Adam。还讨论了学习率的选择、二阶优化以及模型集成。此外，介绍了正则化技术，如权重约束、随机失活（Dropout）及其在测试阶段的应用，以及局部最大池化和随机深度等方法，强调了它们在防止过拟合和提升模型泛化能力中的作用。

摘要由CSDN通过智能技术生成

文章目录

课堂问答

A0: 下面关于优化算法的比较应该都是以凸优化问题举例的。
Q1： 带有动量的SGD怎么处理不好的梯度方向？
Q2: Dropout层在哪里使用？
A2: 一般在全连接层后面添加DP使得某些神经元失活，当然也可以在卷积层后面添加，但是具体的做法使使得部分卷积核得到的激活图（activation map）置0.
Q3: Dropout 对于梯度的回传有什么影响？
A3: Dropout 使得梯度回传仅发生在部分神经元，使得我们的训练更加缓慢，但是最后的鲁棒性更佳。
Q4: 一般，我们采用几种正则化方法？
A4: 通常，我们会使用BN，因为其确实会起到正则化的作用。但是，我们一般不交叉验证需要使用哪些正则化方法，而是有的放矢的，当我们发现模型过拟合了，适当的添加正则手段。

1. 更好的优化（Fancier optimization）

1.1 SGD 优化

之前，我们介绍了一个简单的梯度更新算法 SGD，它是固定步长，沿着负梯度方向的更新：
在这里插入图片描述
但是，它也会有一些问题。

假设我们有损失函数L和二维的权重W，且损失L对于W的一个方向（维度）上变化不敏感（比如水平），对于另一个方向（例如竖直）变化则比较敏感，则按道理来说，如果沿着竖直方向更新，则我们的损失会下降的比较快。
但是 SGD 算法，使得我们沿着两个方向的合方向进行更新，整体上来讲就会呈现之字形（抖动），如下图，等高线表示沿着水平方向损失变化很小。