欠拟合(underfitting)
高偏差(high bias),曲线不能很好的拟合训练数据。
过拟合(overfitting)
高方差(high variance),通常因为过多的特征导致,曲线能够很准确的拟合训练数据,但是不能泛化到新的数据。
解决过拟合问题的方法
减少特征变量数目
人工选择保留的特征、模型选择算法
正则化
保留所有特征,但降低 θj θ j 的数量级
正则化
当假设函数出现过拟合现象,我们可以通过提高某些系数的代价来降低他们的权重值。
比如:
对于假设函数
θ0+θ1x+θ2x2+θ3x3+θ4x4
θ
0
+
θ
1
x
+
θ
2
x
2
+
θ
3
x
3
+
θ
4
x
4
,我们想降低
θ3x3
θ
3
x
3
与
θ4x4
θ
4
x
4
对假设函数的影响,使其更加逼近于一个二次函数,在不舍弃这些特征或者更换假设函数的形式的前提下,可以通过改造代价函数,通过增加
θ3
θ
3
、
θ4
θ
4
在代价函数的代价值,使
θ3
θ
3
θ4
θ
4
趋近于0,达到我们的目的。
如将代价函数修改为,当最小化代价函数时,
θ3
θ
3
θ4
θ
4
趋向于0
定义新的代价函数,
λ
λ
是正则化参数,表示这些
θ
θ
参数膨胀的成本。
使用正则化的代价函数,可以解决过拟合问题,但也要注意
λ
λ
的取值,过大会出现欠拟合,过小仍不能解决过拟合问题。
线性回归正则化
在梯度下降中应用正则化,修改梯度下降的迭代更新公式,除 θ0 θ 0 之外的 θ θ 值更新时需要加上 λmθj λ m θ j ,即
进一步得到 θj:=θj(1−αλm)−α 1m ∑mi=1(hθ(x(i))−y(i))x(i)j θ j := θ j ( 1 − α λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) , 1−λm 1 − λ m 总是小于1,能够直观地看到 θj θ j 被缩小。
正规方程正则化修改
L为n+1阶方阵。
当样本数量m小于特征数量n时,会出现 XTX X T X 不可逆的现象,在使用正则化正规方程计算时,当 λ>0 λ > 0 , XTX+λL X T X + λ L 成为可逆矩阵,因此正则化也帮助解决了某些不可逆的问题。
逻辑回归正则化
正则化代价函数
注意:
在正则化时没有对偏置项正则化,不包含 θ0 θ 0
梯度下降更新公式修改
∂J(θ)∂θj=(1m ∑mi=1(hθ(x(i))−y(i))x(i)j)+λmθj ∂ J ( θ ) ∂ θ j = ( 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) ) + λ m θ j