1、概述
L1正则和L2正则是为了防止模型过拟合,添加在损失函数后面,构成对模型复杂的惩罚项。
结构风险 = 经验风险+惩罚项(正则化)
Lasso回归,L1正则:
J ( θ ) = 1 2 ( X θ − Y ) T ( X θ − Y ) + λ ∥ θ ∥ 1 J(\theta)=\frac{1}{2 }(\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} \theta-\mathbf{Y})+\lambda\|\theta\|_{1} J(θ)=21(Xθ−Y)T(Xθ−Y)+λ∥θ∥1
因为L1正则项是绝对值之和,所以损失函数并不是处处可导,不能使用梯度下降方法求导,采用坐标轴下降法求解。
Ridge回归,L2正则:
J ( θ ) = 1 2 ( X θ − Y ) T ( X θ − Y ) + 1 2 λ ∥ θ ∥ 2 2 J(\theta)=\frac{1}{2}(\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} \theta-\mathbf{Y})+\frac{1}{2} \lambda\|\theta\|_{2}^{2} J(θ)=21(Xθ−Y)T(Xθ−Y)+21