为什么dropout要用在全连接层?
因为全连接层参数占全部参数数目的大部分,容易过拟合(当参数过多,样本过少时,会使得参数记住训练集中的所有样本,从而使得其在训练集上表现特别好。但在测试集中效果极差)
为什么dropout有效?
- 组合解释
- 每次dropout都相当于训练了一个子网络
- 最后的结果相当于子网络的组合---有集成学习的意思
- 动机解释:消除了神经元之间的依赖,增强泛化能力
因为全连接层参数占全部参数数目的大部分,容易过拟合(当参数过多,样本过少时,会使得参数记住训练集中的所有样本,从而使得其在训练集上表现特别好。但在测试集中效果极差)