正则化
过拟合问题
在样本的特征阶数过高或者特征数量过多的情况下可能会出现过拟合问题,其表现是拟合曲线可能会完美的通过各个点,但拟合曲线没有普遍性,扭扭曲曲的,对于新的变量预测能力较差。
解决的办法是:
- 减少变量
- 正则化
正则化
正则化的方法是加入惩罚项,使一些无关紧要的变量趋近为0。
线性回归的正则化
代价函数
J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m} {(h_\theta(x^i)-y^i)^2}+\lambda\sum_{j=1}^{n} {\theta^2_j} J(θ)=2m1[i=1∑m(hθ(xi)−yi)2+λj=1∑nθj2
梯度下降
θ j : = θ j − α ( 1 m ∑ i = 1 m ( h θ ( x i ) − y i ) x j i + λ m θ j ) \theta_j:=\theta_j-\alpha(\frac{1}{m}\sum_{i=1}^{m} {(h_\theta(x^i)-y^i)x_j^i+\frac{\lambda}{m}\theta_j}) θj:=θj−α(m1i=1∑m(hθ(xi)−yi)xji+mλθj)
正规方程
Θ = ( X T X + λ { 0 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋯ 0 0 0 ⋯ 1 } ) − 1 X T y \Theta=(X^TX+\lambda\left\{\begin{matrix} 0&0&\cdots&0\\ 0&1&\cdots&0\\ \vdots&\vdots&\cdots&0\\ 0&0&\cdots&1 \end{matrix}\right\})^{-1}X^Ty Θ=(XTX+λ⎩⎪⎪⎪⎨⎪⎪⎪⎧00⋮001⋮0⋯⋯⋯⋯0001⎭⎪⎪⎪⎬⎪⎪⎪⎫)−1XTy
其中 { 0 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋯ 0 0 0 ⋯ 1 } \left\{\begin{matrix} 0&0&\cdots&0\\ 0&1&\cdots&0\\ \vdots&\vdots&\cdots&0\\ 0&0&\cdots&1 \end{matrix}\right\} ⎩⎪⎪⎪⎨⎪⎪⎪⎧00⋮001⋮0⋯⋯⋯⋯0001⎭⎪⎪⎪⎬⎪⎪⎪⎫表示第一行全0第一列全0其余为单位矩阵的n+1方阵。
逻辑回归的正则化
代价函数
J ( Θ ) = − 1 m ∑ i = 1 m y ( i ) l o g ( h Θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h Θ ( x ( i ) ) ) + λ 2 m ∑ j = 1 n θ j 2 J(\Theta)=-\frac{1}{m}\sum_{i=1}^{m}{y^{(i)}log(h_\Theta(x^{(i)})+(1-y^{(i)})log(1-h_\Theta(x^{(i)}))}+\frac{\lambda}{2m}\sum_{j=1}^{n} {\theta^2_j} J(Θ)=−m1i=1∑my(i)log(hΘ(x(i))+(1−y(i))log(1−hΘ(x(i)))+2mλj=1∑nθj2
梯度下降
θ j : = θ j − α m [ ∑ i = 1 m ( h Θ ( x ( i ) ) − y ( i ) ) x j ( i ) + λ θ j ] \theta_j:=\theta_j-\frac{\alpha}{m}\left[\sum_{i=1}^{m}{(h_\Theta(x^{(i)})-y^{(i)})x^{(i)}_j}+\lambda\theta_j\right] θj:=θj−mα[i=1∑m(hΘ(x(i))−y(i))xj(i)+λθj]