0、引出
最左边的模型最高次项为一次,此时模型是一条直线;直观的观察样本点(红色×)的趋势,我们发现该模型并不能很好的拟合两者的关系(事实上,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓,而不是无限递增)。此类情况称为欠拟合。
最右边的模型最高次项为四次,此时模型从表面看上去很好的拟合了样本点,但实际上这是一条非常难看的曲线,不断的波动。可以想象得到,当一个新的样本需要预测时,该模型的结果也不准确,这类情况叫做过拟合。
中间的模型,参数不多不少,刚好能反应面积Size和价格Price之间的真实关系,而它的最高次项是二次。
这也就引出了一个问题,该怎么控制多项式的最高次幂?(也就是特征的个数)。对于这个问题其实我们只需要这两个特征,而是不需要的。所以尽可能的降低的权重,也就是让其系数 尽可能的小。最好趋近于零,这样就ok了。
一、利用正则化解决过拟合问题
造成过拟合的可能原因:
- 1、特征数量太多(对应上例中就是特征值过多,即