回归模型主要理解线性回归模型和决策树模型。
决策树模型在集成学习模型中往往作为基模型来应用,进行集成。
优化基础模型
在回归问题中使用训练集估计模型的参数的原则一般都是使得损失函数在训练集达到最小值,其实在实际问题中,我们是可以让损失函数在训练集最小化为0的。但我们的目的是希望模型在测试集上表现优异。
1.训练均方误差与测试均方误差
模型在训练误差很小,但是测试均方误差很大时,称这种情况为模型的过拟合。
2.偏差-方差的均衡
测试均方误差曲线呈现U型曲线,表明在测试误差曲线中有两种力量在相互博弈。
测试均方误差的期望不可能低于误差的方差
将上式右侧最后一项称为建模任务的难度,这个量在我们的任务确定后是无法改变的,也叫作不可约误差。
一般来说,模型的复杂度越高,拟合的模型的方差就会越大。
由于模型的复杂度引起的这种误差成为偏差,它度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。
**“偏差-方差分解”**说明:泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需要使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响较小。
一般而言,增加模型的复杂度,会增加模型的方差,但是会减少模型的偏差,要寻找一个方差-偏差的权衡,使得测试均方误差最小。
3.特征提取
实际上很难对实际的测试误差做精确的计算(缺少测试数据),因此要对测试误差进行估计,有直接估计和间接估计。
间接估计的方式有两种:训练误差修正与交叉验证。
(a)训练误差修正
模型越复杂,训练误差越小,测试误差先减后增。先构造一个特征较多的模型使其过拟合,此时训练误差很小而测试误差很大,加入关于特征个数的惩罚。因此,当训练误差随着特征个数的增加而减少时,惩罚项会因为特征数量的增大而增大,抑制了训练误差随着特征个数的增加而无休止地减小。
C p C_p Cp、 A I C AIC AIC(赤池信息量准则)、 B I C BIC BIC(贝叶斯信息量准则)
惩罚程度最大: B I C BIC BIC
(b)交叉验证
测试均方误差能够被估计出来以后,要选择最好的模型,也就是进行特征选择。
做特征选择的目标:从 p p p个特征中选择 m m m个特征,使得对应的模型的测试均方误差的估计值最小。对应的方法有:最优子集选择和向前逐步选择。
- 最优子集选择
(i)记不含任何特征的模型为 M 0 M_0 M0,计算这个 M 0 M_0 M0的测试误差;
(ii)在 M 0 M_0 M0基础上增加一个变量,计算 p p