问题描述:
如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(损失函数可能几乎为 0),但是可能会不能推广到新的数据。
回归问题 :
第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一 个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看 出,若给出一个新的值使之预测,它将表现的很差,是过拟合,虽然能非常好地适应我们的 训练集但在新输入变量进行预测时可能会效果不好;而中间的模型似乎最合适。
分类问题:
就以多项式理解,x 的次数越高,拟合的越好,但相应的预测的能力就可能变差。
解决方案:
-
丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征 或者使用 一些模型选择的算法来帮忙(例如 PCA)
-
正则化。 保留所有的特征,但是减少参数的大小 。
正则化方法:
1、L1范数:
2、L2范数:
其中 λ 又称为正则化参数(Regularization Parameter)。
3、弹性网络:
Reference: