优化基础模型
我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项。
但是:目的是让模型在未知且情况复杂的测试数据上表现优异。
(a) 训练均方误差与测试均方误差
过拟合的问题
(b) 偏差-方差的权衡
测试均方误差的期望值
Var(𝜀)为建模任务的难度。
所谓模型的方差就是:用不同的数据集去估计 𝑓时,估计函数的改变量。模型的偏差是指:为了选择一个简单的模型去估计真实函数所带入的误差。一般而言,增加模型的复杂度,会增加模型的方差,但是会减少模型的偏差,我们要找到一个方差–偏差的权衡,使得测试均方误差最小。
(c)特征提取
训练误差和测试误差
训练误差:模型拟合能力;测试误差:泛化能力(过拟合与欠拟合)
(d) 压缩估计(正则化)
岭回归和Lasso回归
(e) 降维
PCA
对模型超参数进行调优(调参)
参数和超参数
我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为超参数。
- 网格搜索GridSearchCV()
- 随机搜索 RandomizedSearchCV()
- 与网格搜索相比,这有两个主要优点:
- 可以独立于参数数量和可能的值来选择计算成本。
- 添加不影响性能的参数不会降低效率。