神经网络笔记3

最新推荐文章于 2022-09-08 18:02:01 发布

独孤呆博

最新推荐文章于 2022-09-08 18:02:01 发布

阅读量463

点赞数 3

分类专栏： CS231n_课程笔记_完结基于深度学习的图像分类文章标签：神经网络超参数模型集成参数更新梯度检查

本文链接：https://blog.csdn.net/dugudaibo/article/details/79059547

版权

在《神经网络笔记2》中，我们讨论了神经网络的静态部分：如何创建网络的连接、数据和损失函数。本节将致力于讲解神经网络的动态部分，即神经网络学习参数和搜索最优超参数的过程。

1. 梯度检查

在计算梯度的过程中存在着两大类方法，即数值梯度方法和解析梯度方法。神经网络中的反向传播实际上是计算网络中每个参数的解析梯度，由于计算中涉及的参数很多，很容易出现误差，导致最后迭代得到效果很差的参数值，所以需要进行梯度检查。

为了确认代码中反向传播计算的梯度是否正确，可以采用梯度检验（gradient check）的方法。通过计算数值梯度，得到梯度的近似值，然后和反向传播得到的梯度进行比较，若两者相差很小的话则证明反向传播的代码是正确无误的。需要注意的是，这个是用来检测反向传播代码编写是否正确的过程，所以使用框架时可以不用检查梯度，因为框架中的梯度计算几乎可以肯定是没有问题的。

所以这部分不进行过多的介绍。

2. 学习之前：合理性检查的提示与技巧（很重要！！！）

在进行费时费力的最优化之前，最好进行一些合理性检查

寻找特定情况的正确损失值。在使用小参数进行初始化时，确保得到的损失值与期望一致。最好先单独检查数据损失（让正则化强度为0）。例如，对于一个跑CIFAR-10的Softmax分类器，一般期望它的初始损失值是2.302，这是因为初始时预计每个类别的概率是0.1（因为有10个类别），然后Softmax损失值正确分类的负对数概率：-ln(0.1)=2.302。对于Weston Watkins SVM，假设所有的边界都被越过（因为所有的分值都近似为零），所以损失值是9（因为对于每个错误分类，边界值是1）。如果没看到这些损失值，那么初始化中就可能有问题。

第二个合理性检查：提高正则化强度时导致损失值变大。

对小数据子集过拟合。最后也是最重要的一步，在整个数据集进行训练之前，尝试在一个很小的数据集上进行训练（比如20个数据），然后确保能到达0的损失值。进行这个实验的时候，最好让正则化强度为0，不然它会阻止得到0的损失。除非能通过这一个正常性检查，不然进行整个数据集训练是没有意义的。但是注意，能对小数据集进行过拟合并不代表万事大吉，依然有可能存在不正确的实现。比如，因为某些错误，数据点的特征是随机的，这样算法也可能对小数据进行过拟合，但是在整个数据集上跑算法的时候，就没有任何泛化能力。