过度拟合
当特征变量过多时,假设函数的多项式也随之变多,从而导致为了满足训练集而产生的过度‘精准’曲线。对于模型而言,这样往往不能有效地执行其预测功能。
为了解决这个问题,我们有以下两种选择:
- 删去不必要的特征变量(对结果影响较小的),选择合适的算法模型。
- 在代价函数运算中引入正则化的概念。
代价函数的改变
对参数进行所谓的“惩罚”,削减它们对拟合的影响程度,以达到合适的预期值。
当参数 λ 过大时会把所有相关的特征量对结果的影响消除,造成“欠缺拟合”,在梯度下降的过程中也会举步维艰。
线性回归和Logistic回归的正则化
由先前的代价函数可以推导出在梯度下降过程中每个参数的更新式。
运行梯度下降算法就是为了找到J(theta)的最小值。之前的课程中我们已经了解到可以通过另一种方法–正规方程来直接得出结果。数学推导已经得出,在原有的公式基础上加入一个新的矩阵来进行正则化运算。
我们之前同样了解了当正规方程运算中遇到‘不可逆’矩阵时的解决方法。在正则化运算下(加入了新的矩阵),经过科学推理,该合并矩阵就是可逆的,该式可运算。
Logistic回归的正则化总体类似,不在做过多阐述。