高方差与高偏差的区别判断以及如何解决?
1、数据欠拟合就会出现高偏差问题,比如,一个类似二次函数的数据图像你用一次函数来表示,就会出现高偏差问题。例如见下图。
欠拟合图像:这个图像数据本来是二次函数图像,却用一次函数表示就属于高偏差问题,这样的话无论数据集有多大都不会有帮助,因为本身函数的选择就是有问题的。
解决方法:(1)、尝试获得更多的特征;(2)、尝试增加多项式特征;(3)、尝试减少正则化程度。
高偏差图像
2、数据过度拟合就会出现高方差问题,例如计算代价较小使用较大的神经网络,类似于参数较多的情况。例如见下图。
过拟合图像
这是典型的高方差,中间的黑线部分就是高方差部分。
解决方法:(1)、获取更多的训练实例,增加training set size就会发现两个函数无限的接近。(2)、尝试减少特征的数量。(3)、尝试增加正则化程度。
PS:如果仅仅是判断高方差和高偏差,主要查看训练误差与测试误差的差距大小就可以了
参考文献:https://blog.csdn.net/zhf1234abc/article/details/46669661