1、偏差与方差基本概念
模型的偏差是指:为了选择一个简单的模型去估计真实函数所带入的误差。
模型的方差是指:用不同的数据集去估计 𝑓 时,估计函数的改变量。
一般来说,模型的复杂度越高,f的方差就会越大,模型的偏差会越少,我们要找到一个方差–偏差的权衡,使得测试均方误差最小。
2、如何减少偏差和方差
2.1 特征提取
- 训练误差修正
- 交叉验证
- 最优子集选择
- 向前逐步选择
2.2 正则化
2.3 降维
2.4 使用不同模型进行训练
3、作业
-
请用一个具体的案列结实什么是偏差和方差?
答:偏差是针对模型的选择而言,例如针对同一个数据集,A用一元线性回归模型进行预测,B用多元线性回归模型预测,那么A和的B的偏差肯定不一样。一般来说A的偏差比B大。
方差是针对数据集而言,跟选取的数据有关,例如针对同一个模型,A使用全部数据进行训练,B的数据经过5折交叉验证,那么B的方差肯定比A的要小。 -
偏差与方差和误差之间的关系?
答:误差是学习到的模型在样本上的预测结果与样本的真实结果之间的差。
如果训练误差太小,模型复杂度肯定很高,偏差较小,方差较大,会出现过拟合现象。如果训练误差太大,有可能模型还未学习到,偏差可能较大,方差较小,会出现欠拟合现象。 -
训练误差与测试误差之间的联系和区别,如何估计测试误差?
答:训练误差是模型在训练集上的误差,测试误差也称泛化误差,是在新样本上的误差。
如果训练误差很小,模型复杂度很高,测试误差将会很大;如果训练误差很大,模型复杂度很低,测试误差也会很大;当训练误差在一个合适的值时,模型复杂度刚刚好,测试误差也将会最小。
通过训练误差修正与交叉验证来估计测试误差。 -
尝试使用sklearn,对一组数据先进行特征的简化,再使用回归模型,最后使用网格搜索调参,观察三种方法的优劣。
答:特征提取的优点是简化模型复杂度,缺点是可能存在某些特征未参与模型训练,导致训练误差很大。
正则化的优点是防止模型过拟合,缺点是增加了一个约束条件,增加了模型复杂度。
降维的优点是简化模型复杂度,缺点是处理后的数据与实际数据有出入。
4、总结
模型方差与偏差对于模型的结果很重要,是验证模型好坏的标准之一。所以需要不断的试错,才能找到最合适的偏差和方差。