一、过拟合&欠拟合
1 概念
过拟合是指所选模型的复杂度比真模型更高,学习时选择的模型所包含的参数过多,对已经数据预测得很好,但是对未知数据预测得很差得现象。
欠拟合是指所选模型得复杂度比真模型更低,学习时选择的模型所包含的参数过少。
2 如何判断
-特征变量只有一个的时候,可以通过画出决策树的图像,观察拟合效果
-画出training error 和cross validation error关于模型超参数的error曲线图来判断
-画出学习曲线来识别,考量增加数据量会不会改善学习模型效果
-以上分析的前提都是假设基本误差很小,训练集和验证集数据来自相同分布
3 特点
过拟合:高方差、低偏差
4 原因
过拟合:训练数据不够,模型进行过度训练
欠拟合:特征维度少,导致拟合的函数无法满足训练集,误差较大。
5 如何避免
过拟合:
1) Early stopping:在模型对训练数据集迭代收敛之前停止迭代来防止过拟合
2) 数据集扩增:既需要得到更多符合要求的数据,即和已有数据是独立同分布的,或者近似独立同分布的。一般的方法有:从数据源头采集更多的数据,复制原有数据并加上随机噪声,重采样,根据当前数据集估计数据分布参数,使用该分布产生更多数据等。过拟合的主要原因是模型太努力去记住训练样本的分