1、判断偏差、方差
这是一个二分类问题,图中三条蓝线是拟合曲线,由图可以看出中间分类效果最好,适度拟合,而左边欠拟合,右边过拟合。在二维数据下,可以通过可视化直观判断,那在高维情况下如何判断?
在高维下,通过训练集误差和测试集误差的表现判断,以猫狗分类为例,假设人对这个问题判断的误差为0,即最优误差(贝叶斯误差),在这个条件下,根据如下不同的误差表现,推断方差和偏差状态。
训练集误差率 | 测试集误差率 | 判断结果 |
---|---|---|
1% | 11% | 高方差 |
15% | 16% | 高偏差 |
15% | 30% | 高偏差,高方差 |
0.5% | 1% | 低方差,低偏差 |
2、根据判断结果进行优化
根据下表,首先处理高偏差,当偏差到一个合理范围,再进行方差的处理
高偏差?
├────(yes)───── 更大的网络
(NO) ├── 更长的时间
│ ├──(新的网络架构)
高方差?
├────(yes)───── 更多的样本数据
(NO) ├── 正则化
│
Done