深度学习中如何防止过拟合
1、更多数据
其实更多数据,是一种很好的防止过拟合的方法。之所以过拟合,其实就是因为模型本身见到的数据太少了,比如对于猫这类动物,如果训练数据集中只有一个正拍且坐立的猫,那么当过拟合时,模型往往有可能只能识别出这类姿态的猫,像跳跃的猫、局部捕捉的猫、反转的猫等等可能都识别不出来了,因为让模型见更多的数据是有好处的,而且真的可以防止过拟合。
2、Dropout为什么能够防止过拟合?算法原理是怎样的?
主要思想是分布式特征表达,在训练的时候,随机丢弃一些节点,使这些节点不参与到参数的更新训练中(一般设置为0.5),然后进行放回,当有数据再次进行更新时,再随机进行选举,主要由这三个优点:
https://blog.csdn.net/yhily2008/article/details/80414218
https://blog.csdn.net/qq_19672707/article/details/88740832(讲的比较详细的一篇)
3、BN的作用?公式是怎么样子的?公式中的含义?
BN的最大作用其实是加速训练,也会在一定程度上防止过拟合,另外,当BN和ReLU这类函数一起使用的时候,还可以在一定程度上解决Dead ReLU现象。
4、为什么需要BN算法?
深度神经网络模型的训练为什么会很困难?其中一个重要的原因是,深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。为了训好模型,我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。
Google 将这一现象总结为 Internal Covariate Shift!!! 简称 ICS
那么ICS会导致什么问题?
简而言之,每个神经元的输入数据不再是“独立同分布”。
其一,上层参数需要不断适应新的输入数据分布,降低学习速度。
其二,下层输入的变化可能趋向于变大或者变小,导致上层落入饱和区,使得学习过早停止。
其三,每层的更新都会影响到其它层,因此每层的参数更新策略需要尽可能的谨慎。
5、BN算法如何防止过拟合的?BN算法如何进行网络训练加速的?
在训练中,BN的使用使得一个mini-batch中的所有样本都被关联在了一起,因此网络不会从某一个训练样本中生成确定的结果。其实这句话的意思是,BN的使用,使得网络在训练时不依靠于某一个样本进行更新或者输出,而是依赖于整个ba