【机器学习算法】神经网络与深度学习-7 DNN深度学习算法模型出现学习效果不好的情况，如何补救，对策如下

2401_84615524

于 2024-05-15 03:59:48 发布

阅读量876

点赞数 23

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84615524/article/details/138882825

版权

程序员专栏收录该内容

50 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

训练数据效果不好的情况，采用什么对策

方法1：选择其他误差处理方法：proper loss

方法2：Mini-batch

方法3:使用新的激活函数，选择一个合适的激活函数能帮你把total loss下降的更低。

方法4：学习速率的调整learning rate 调小学习速率，增加精确值，或者使用动态学习速率的。调整

方法5：因为我们平时都只能找到局域最优解，而很难找到全域最优解，momentum，利用动量的方式跳里原先的最小值的范围，让找到全域最优解得到可能性变大。

方法1：proper loss

我们神经网络的误差优化方法一般使用的都是Square Error，利用实际值和输出值的平方差来进行误差调整，都是既然我们测试集的数据错误率很高，我们就可以采用不同的误差公式计算，比如Cross entropy=就是对每一项都用目标字段的值乘以输出字段取自然数为底对数的对数值的累积求和，（含义就是，当你标准字段上得到值越大，entropy得到值就会越小，只考虑，标准答案的概率值。

因为我们的输出字段都是0~1之间，所以要在entropy的数值上乘以-1

当目标字段和输出数值的值相同时，二者的值都会为0

当我们使用softmax layer的时候，使用 cross entropy的效果就会比较好。

可以看看下面附带的这篇论文：

在softmax layer 的前提条件下，我们发现cross entropy的斜率要比 square error 误差值的斜率要大的多，如果求微分，系统可以马上知道我误差下降的方向是那边。如果我们看图中的蓝色点，如果是square，它的误差是平的，往左往右它是无法判断的。就会导致不调整权重值。或者只是微微调整，那如果没有达到最小的误差值，就会导致效果差了，cross entropy做梯度下降法的时候它的下降速度很快，而且能明确下降的方向

用折线图表示二者的差距就可以明显发现了

当斜率小的时候，squareError 是不清楚自己应该向那个发现调整的，于是cross entropy作为误差处理对象时，就会很快提升准确率。

方法2：Mini-Batch

Mini-batch是什么情况呢？

假设现在有2000个数据，mini-batch设为100 它就会设定为20个批次

如果我们不设置mini-batch的话，没进来一笔数据，我们就要调整一次权重数据，这样会导致跑的时间很久，100万个数据就要调整100万次。会导致最后的结果与你输入资料的顺序有关，先输入的资料先调整，后输入的模型后调整，导致模型的稳定性不高。

Mini-batch 就是先输入100笔数据，然后100笔数据一起调整。这样run的数据比较快，因为是100笔数据一起看，数据前后影响会降低。

比如现在100个数据进来，我们就可以吧这100个数据都求loss值，然后把这些loss值求和，然后一次性去调整我们的参数。然后再放进来100个数据，然后再进行调整我们的参数权重。我们就重复20次，然后再进行重复训练

你可能怀疑这个是不是有效果。用准确率的可视化图看，就可以发现，它的效果很好，模型相对稳定。当训练数据准确率不高的时候，也可以考虑用批次的问题。

方法3：采用new activation function

比如把原来的sigmoid 换成ReLU。前者容易出现梯度消失和梯度爆炸的现象。因为当中间隐藏层单个神经元数值超过5以上，或者低于-5以上，那么要么是正无穷，要么是0，也就是梯度爆炸（）和梯度消失（刚开始调整幅度正常，然后调整幅度下降，最后几乎为0，但是还在调整）的情况。

而ReLU的函数是一个斜率固定的函数，能有效解决这个问题

当然还有其他的activation，我们还是用可视化的图像看看二者的差距。

ReLU很快就达到了0.96的准确率，而sigmoid的准确率在0.11徘徊。

这个图像下面几乎都是传统神经网络的情况，而上面的深度学习神经网络的情况。

方法4：Adaptive Learning Rate

这个方法就没有细讲，用就完事了，套件里有。就一开始学习速率高，后面开始变低这样

方法5：Momentum 动量趋近全域最佳

我们看这个图，我们发现小球如果在斜率很低的地方容易停掉。比如图片里的第二个位置，斜率几乎为0，那么它就会调整缓慢，而第三个位置，它斜率直接等于0，那么它可能就认为这里是最优点了，或者第四个位置的情况，它出现了前方有一个坡度，怎么样才能把这些情况给处理了呢？

于是我们再添加一个动量的因素进去。

其实我们是添加了一个动量的值。如果它在前方有斜坡，就会积累这个数值的值，然后进行叠加。移动值是=斜率加动量。二者可能方向相反，互相抵消

在我们DNN的套件里，会把动态学习速率和动量调整方法作为一个方法合并处理：叫ADAM。

测试数据效果不好的情况，采用什么对策：

方法1：Early stopping

方法2：weight Decay

方法3：dropout

方法4：Network Structure

方法1：Early stopping

这个方法就是把训练数据分为两部分，一部分是训练数据（Training set），另一部分用来修正数据（Validation set），测试数据后面在用。我们会发现训练数据和Test数据的总误差（total loss）都持续在下降。然后出现转折，validation开始上升，training set在下降。说明这个点之后出现了epochs现象也就是过拟合。

所以eally stopping其实就是选择在合适的时机把这个停止了。

方法2：weight Decay

权重减少，这个就不细说了，上次给了一个公式，输入层是神经元乘以输出层的神经元，然后开更好，向下减少，作为隐藏层的数量。但是还是需要经验。

隐藏层个数如何确定
隐藏层的使用个数是需要揣摩的超参数。如果隐藏层越多，说明机器能力越强，但是也容易出现过拟合的情况，如果隐藏层太少，机器有会出现智能不足的情况。所以隐藏层要使用多少个，需要认真揣摩。如果数量过多的过拟合情况就相当于，他只是把这些情况记忆下来，得到结果。就不像我们需要的机器学习了，他的泛化效果（测试效果）就会差
再同等准确率的情况下，这边建议选择隐藏层较少的模型。
我们一般有一个公式输入层的节点个数乘以输出层节点个数开根号。然后对这个数字向下取。同等准确率，层数越少越好。
比如之前的杂志喜好预测，输出层有9，输出层有5，数值大概6.几。那么我们就采用以6开始向下调整。我们查看654的能力，发现准确率差不多。那么我会采用4的结果，如果采用的是3的发现能力比4要差不少，那就说明，智能不足，于是最终确定下来为4.这个要一个一个尝试。