这一部分主要是将error的来源和过拟合和欠拟合等概念联系起来
1. 回归的结果会产生错误
错误来源主要有两方面 bias and variance 偏移和方差,过拟合可以简单的理解为一味提高模型的复杂性但是并不会带来在测试集上的良好表现。
bias:样本均值并不等于变量的期望,尽管样本均值的期望等于变量的期望
样本的方差随着样本量的增大而逐渐减小,具体式子为
证明如下:
最好的效果是low bias and low variance,可是世间安得两全法,只能找到一个平衡点
2. 上的bias 和variance
bias和variance表现在上面,就是平均曲线描述的准确性和曲线的分散程度
在曲线的复杂程度较小的时候,error主要来自于bias,处于一种underfitting的状态;曲线复杂程度过大的时候,error主要来自于variance,处于overfitting 的状态,综合考虑bias和variance,存在一个合适的极小值。
3. bias过大和variance过大的表现
当模型在训练集上表现不好的时候,就是bias比较大,表现为欠拟合;如果模型在训练集上表现好,但是在测试集上表现不好,就是variance比较大,表现为过拟合。
4. 处理方法
bias,欠拟合的处理方法:加入更多的输入特征,更加复杂的模型。
variance,过拟合的处理方法:加大数据量(从概论统计的角度就是样本量越大,variance越小,effective but not always practical);regularization 减小单个因素的影响。两种方法都可以理解为缩小单个数据的影响。
找到合适的model达到bias和variance的平衡
如何找到一个比较真实的error呢? N折交叉验证是其中一种方法,采用数据的不同部分作为训练和验证集,最后的结果取平均。