Dropout

深度学习中的过拟合问题

表现:在训练集上Loss和Accuracy都表现很好,而在测试集上一塌糊涂,训练模型基本上没有什么用处。
过拟合产生原因:处理的是样本量较小,而DNN超强的拟合能力,所以很容易造成过拟合的情况出现。【文献5】

另外,比如在文本分类上,dropout效果提升有限,分析原因可能是Reuters-RCV1数据量足够大,过拟合并不是模型的主要问题【文献1】

怎么判断是欠拟合还是过拟合?

模型预测效果不佳时,怎么判断是欠拟合还是过拟合?

使用简单的模型去拟合复杂数据时,会导致模型很难拟合数据的真实分布,这时模型便欠拟合了,或者说有很大的 Bias,Bias 即为模型的期望输出与其真实输出之间的差异;

有时为了得到比较精确的模型而过度拟合训练数据,或者模型复杂度过高时,可能连训练数据的噪音也拟合了,导致模型在训练集上效果非常好,但泛化性能却很差,这时模型便过拟合了,或者说有很大的 Variance,这时模型在不同训练集上得到的模型波动比较大。【来自文献5】

DNN网络有那些控制过拟合方法?

(1)early stopping
(2)数据集扩增(Data augmentation)
(3)正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay)
(4)dropout。
详细参考:http://blog.csdn.net/helei001/article/details/53186686

如何理解Droupout?

在哪个层Droupout?

预测时怎么办?

Dropout与正则化在tensorflow中的实现

参考文献
【1】http://blog.csdn.net/stdcoutzyx/article/details/49022443 理解dropout
【2】Dropout: A Simple Way to Prevent Neural Networks from Over ting
Nitish Srivastava Georey Hinton
【3】DROPOUT AS DATA AUGMENTATION https://arxiv.org/pdf/1506.08700.pdf
【4】http://blog.csdn.net/u012702874/article/details/45030991 对 CNN 中 dropout layer 的理解
【5】http://www.07net01.com/2017/05/1865263.html DNN中防止过拟合的方法
【6】http://blog.csdn.net/helei001/article/details/53186686 正则化方法:L1和L2 regularization、数据集扩增、dropout

©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页