1.请用一个具体的案例解释什么是偏差和方差
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
2.偏差与方差和误差之间的关系
Error = Bias + Variance
3.训练误差与测试误差之间的联系与区别,如何估计测试误差
训练过程中的误差,就是训练误差。
在验证集上进行交叉验证选择参数(调参),最终模型在验证集上的误差就是验证误差。
训练完毕、调参完毕的模型,在新的测试集上的误差,就是测试误差。
假如所有的数据来自一个整体,模型在这个整体上的误差,就是泛化误差。通常说来,测试误差的平均值或者说期望就是泛化误差。
综合来说,它们的大小关系为
训练误差 < 验证误差 < 测试误差 ~= 泛化误差
4.岭回归和lasso回归的异同点
参考:https://blog.csdn.net/weixin_43374551/article/details/83688913
编程题:使用sklearn对一组数据先进行特征的简化(三种方法),再使用回归模型,最后使用网格搜索调参,观察三种方法的优劣