神经网络的训练_神经网络什么样的特征适合训练-CSDN博客

本文链接：https://blog.csdn.net/hu_hao/article/details/124976296

神经网络训练不起来怎么办

神经网络的训练
参考

神经网络的训练

李新在《为有源头活水来》说：“要结合实际工作和革命斗争的需要来学；学以致用；并且勤学苦学。”

神经网络训练中障碍-局部最小值点与鞍点

在《三体》中有一个片段涉及多维空间的问题。三维封闭空间，可能对四维时空就是开放的，比如二维画一个圈，二维生物可能就困在了里面，但三维生物可以从圈上方跨过去。这么说来，被孙悟空地上画个圈就困住的唐僧可能是二维生物。这里主要说到的一个现象是，鞍点就是在某一方向上不能再下降的点，但其他方向还是可以继续下降的，而且在训练神经网络时，我们遇到的最多驻点就是鞍点。如下图所示，在训练到一个关键点时，其中局部最小值数量占一半的情况还是比较少的，多数情况是鞍点占很大部分。

其中这里最重要的部分是对关键点类型分类的数学原理，在关键点对Loss函数进行二阶泰勒展开，可以通过其中二阶偏导，来判断关键点类型。

因为在关键点处，一阶导数为0，所以周围点与中心点大小的关系可以从第二部分的正负求得，其实第二部分我看起来像一个二次多项式。这里的关键点在于判断其中海参矩阵特征值是否全正，如果全为正，那么第二项就必定是正值，如果有正有负，那么就是鞍点。

这里是不是可以通过二次平方配方来证明？

那么在训练一个神经网络时，感觉就是在一个个鞍点向下滑，这么跟滑梯还真类似。

批次与动量

批次大小是一个超参数，又是超参数!超参数多的意思就是这个模型很看运气。

批次大小

在使用训练数据计算梯度时，一般不会使用全部数据一次计算梯度，而是将数据分为很多batch，然后每个batch计算梯度，然后更新参数。计算完所有batch后，这个训练称为一个epoch。这种训练流程如下：

一般逻辑想的是，一个batch数据量越大的话，计算单个batch也就越耗时，但实际情况却不是这样。当一个batch数据量在1到1000时，由于GPU的并行能力，其实耗时是没有太大差异的，训练耗时发生较大变化是在数据量大于1w时，此时一个batch训练时间会有较大增长。

在相同数据量时，one epoch训练时间=Time(one batch)*(N(all data)/n(one batch))，由于在batch大小很小时，看完所有数据需要看非常多次，导致其训练一个epoch反而是最多的。而一个大batch时训练时间却最小。

但小batch有自身的好处，即它可以降低泛化误差，目前解释是小batch训练数据的随机性有利于在训练过程中跳出陡峭的局部最小点，而是使参数大概率落在平滑的局部最小值，这样就算测试数据有一点变化，那么造成的误差改变也不会很大。总结来说，小batch训练神经网络模型有利于训练出较为“平滑”的模型。

如何冲出局部最小值-动量法

动量法是在更新当前梯度时，将本次batch数据计算的梯度和上次梯度进行相加，即考虑了训练的惯性，将上次更新的更新也考虑在了本次更新内。感觉像是说，如果这是一个小坑，小球从很高的地方下降下来，那么如果坑的另一边没有对应很高的壁，那就可以越过这个坑，但就怕越过后，对面的坑还不如当前的坑底。这可能就是为什么说训练神经网络都是玄学。因为这里面太多东西没有研究到了。