复习
bias:偏差
variance:方差
测试数据集上的error误差来自bias和variance
具体研究bias和variance对error的影响
f hat为正确值 f**为估计值
mean:平均值
样本均值m与总体均值
μ
\mu
μ的差异
(样本平均值是总体平均值的无偏估计)
即E(m)=
μ
\mu
μ
在
μ
\mu
μ周围散的有多开取决于variance,variance取决于样本的数量
n越大就会分布得越集中
s^2普遍要比
σ
\sigma
σ ^2要小
当增加n的值,结果E(s^2)就更接近
σ
\sigma
σ ^2
数据可视化(用打靶图来表示)
偏差bias看距离点的远近,方差variance看点的分散程度(离中心越远,偏差越大;点越集中,方差越小)
bias是描述一组数据准确度的量,variance是描述一组数据离散程度的量(准和稳)
*采用相同的function model,但如果训练数据不一样,得到的 f *也是不同的
更简单的model更不容易被样本数据影响,所以它的variance更小
取avg之后,带五次项的更接近真实值(即其bias较小)
瞄得越来越准(bias越小),手越来越抖(variance越大)
欠拟合(underfitting)与过拟合(overfitting)
怎样调整过大的bias或variance
若你的model更不符合训练数据集,则underfitting
若你的model更不符合测试数据集,则overfitting
trade-off:权衡,折中
训练集 验证集(public) 测试集(private)
除非你的testing set比较好的代表了总体分布,否则在实际使用时Err一定会变差
你不应该做什么
baseline:基线(对照组,由别人做的基准模型)
所以public testing set不可靠
cross validation:交叉验证
N-fold Cross Validation:n折交叉验证