《神经网络与深度学习》学习笔记二

m0_58078645

已于 2023-05-05 23:50:11 修改

阅读量63

点赞数

文章标签：深度学习神经网络学习

于 2023-03-27 15:48:14 首次发布

本文链接：https://blog.csdn.net/m0_58078645/article/details/129796028

版权

文章讨论了机器学习和深度学习中的性能优化策略，包括动量法和自适应梯度算法在优化模型参数中的应用。此外，还介绍了二阶优化方法如牛顿法，并提到了全连接网络和卷积神经网络的基础知识，如卷积层、池化层以及LeNet-5网络结构。

摘要由CSDN通过智能技术生成

一、性能优化

当任务在试图预测数值时，最常⻅的损失函数是平⽅误差（squared error），即预测值与实际值之差的平⽅。当试图解决分类问题时，最常⻅的⽬标函数是最⼩化错误率，即预测与实际情况不符的样本⽐例。有些⽬标函数（如平⽅误差）很容易被优化，有些⽬标（如错误率）由于不可微性或其他复杂性难以直接优化。在这些情况下，通常会优化替代⽬标。通常，损失函数是根据模型参数定义的，并取决于数据集。在⼀个数据集上，我们可以通过最⼩化总损失来学习模型参数的最佳值。该数据集由⼀些为训练⽽收集的样本组成，称为训练数据集（training dataset，或称为训练集（training set））。然⽽，在训练数据上表现良好的模型，并不⼀定在“新数据集”上有同样的性能，这⾥的“新数据集”通常称为测试数据集（test dataset，或称为测试集（test set））。综上所述，可⽤数据集通常可以分成两部分：训练数据集⽤于拟合模型参数，测试数据集⽤于评估拟合的模型。然后我们观察模型在这两部分数据集的性能。“⼀个模型在训练数据集上的性能”可以被想象成“⼀个学⽣在模拟考试中的分数”。这个分数⽤来为⼀些真正的期末考试做参考，即使成绩令⼈⿎舞，也不能保证期末考试成功。换⾔之，测试性能可能会显著偏离训练性能。当⼀个模型在训练集上表现良好，但不能推⼴到测试集时，这个模型被称为过拟合（overfitting）的。就像在现实⽣活中，尽管模拟考试考得好，真正的考试不⼀定百发百中。

1、动量法：

如果把原始的 SGD 想象成一个纸团在重力作用向下滚动，由于质量小受到山壁弹力的干扰大，导致来回震荡；或者在鞍点处因为质量小速度很快减为 0，导致无法离开这块平地。

动量方法相当于把纸团换成了铁球；不容易受到外力的干扰，轨迹更加稳定；同时因为在鞍点处因为惯性的作用，更有可能离开平地。

2、自适应梯度算法

当我们获得了⼀些数据源及其表⽰、⼀个模型和⼀个合适的损失函数，接下来就需要⼀种算法，它能够搜索出最佳参数，以最⼩化损失函数。深度学习中，⼤多流⾏的优化算法通常基于⼀种基本⽅法‒梯度下降（gradientdescent）。简⽽⾔之，在每个步骤中，梯度下降法都会检查每个参数，看看如果仅对该参数进⾏少量变动，训练集损失会朝哪个⽅向移动。然后，它在可以减少损失的⽅向上优化参数。

参数自适应变化：具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对应一个较小的学习率具体来说，每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。