工作原理
问题:当线性函数无法 拟合数据时,我们选择多项式回归。
方法:为原来的数据,增加新的特征(升维)。
简而言之,就是在线性回归方法之前,进行了数据预处理(升维)
数据升维:低位数据集的线性模型常常出现欠拟合的问题,升维后,增加特征,有利于解决欠拟合的问题
过拟合欠拟合
欠拟合(全差)
过拟合:对训练集拟合较好,对测试集预测差
以后面临的基本全是,过拟合问题。
交叉验证
偏差 方差
模型误差 = 偏差(bias)+方差(Variance) + 不可避免的误差
偏差: 对问题本身的 假设不准确(欠拟合)
方差: 使用模型太复杂(过拟合)
偏差与方差通常是矛盾的(一边降低,一边就不升高)
通常主要问题都处在方差上:
解决办法:
- 降低模型复杂度
- 减少数据维度,降噪
- 增加样本数
- 使用验证集
- 正则化
模型正则化(regularization)
模型正则化:限制参数的大小
岭回归公式:
J ( θ ) = M S E ( y , y ^ ; θ ) + α 1 2 ∑ i = 1 n θ i 2 J(\theta)=M S E(y, \hat{y} ; \theta)+\alpha \frac{1}{2} \sum_{i=1}^{n} \theta_{i}^{2} J(θ)=MSE(y,