正则化

定义

  • 正则化
    通过限制模型参数的范数过大,降低模型复杂度,从而防止过拟合。
  • 范数
    • 用于衡量向量和矩阵的大小
    • l 1 l_1 l1-norm: ∥ w ∥ 2 = ∑ i w i 2 {\Vert \bold{w} \Vert}_2=\sqrt{\sum_{i} {w_i}^2} w2=iwi2
    • l 2 l_2 l2-norm: ∥ w ∥ 1 = ∑ i ∣ w i ∣ {\Vert \bold{w} \Vert}_1=\sum_{i} |w_i| w1=iwi
    • l p l_p lp-norm: ∥ w ∥ p = ( ∑ i w i p ) 1 p {\Vert \bold{w} \Vert}_p=(\sum_{i} {w_i}^p)^{\frac{1}{p}} wp=(iwip)p1
    • l 0 l_0 l0-norm: ∥ w ∥ 0 = # ( i ∣ x i ≠ 0 ) {\Vert \bold{w} \Vert}_0=\#(i|x_i \neq 0) w0=#(ixi=0),即非零分量个数
    • l ∞ l_\infty l-norm: ∥ w ∥ ∞ = m a x ( ∣ w 1 ∣ , ∣ w 2 ∣ , . . . , ∣ w n ∣ ) {\Vert \bold{w} \Vert}_\infty=max(|w_1|,|w_2|,...,|w_n|) w=max(w1,w2,...,wn)
  • 正则项(正则化的体现)多和损失函数搭配,作为算法的优化目标函数,如ridge回归算法=线性回归+ l 2 l_2 l2-norm、lasso回归算法=线性回归+ l 1 l_1 l1-norm
    • 损失函数用于降低模型拟合误差即经验风险最小化,正则项用于降低模型复杂度即结构风险最小化

区别

l 2 l_2 l2-norm会使参数 w w w各分量都趋向于0,而 l 1 l_1 l1-norm则使其部分分量等于0、得到稀疏的 w w w(顺便就达到特征选择的效果)

  • 以图直观感觉,假设 w w w是二维向量,彩色圈圈为损失函数 f ( x ) = ( y − w T x ) 2 f(x)=(y-w^Tx)^{2} f(x)=(ywTx)2的值等高线,圈圈直径越大、代表损失函数值越大,而黑色为正则项的等高线,离远点越远、数值越大,现在要找两边等高线的交点使得二值之和最小。
    • 当二值之和最小时,交点一定两个等高线相切的点,不然固定其中一个等高线,肯定会有更小的等高线与之相交,与二值之和最小矛盾。
      在这里插入图片描述
  • 接下来证明:使用 l 1 l_1 l1-norm,目标函数最小时为什么分量容易等于0?

简化问题, w w w是一个一维向量,那么目标函数为 m i n w f ( w ) + C ∣ w ∣ min_w f(w)+C|w| minwf(w)+Cw,其中系数 C > 0 C>0 C>0
若要w=0为极值点使目标函数最小,则必要条件是 w w w两边关于目标函数的导数要异号即 ( f ′ ( 0 ) − C ) ( f ′ ( 0 ) + C ) < 0 (f'(0)-C)(f'(0)+C)<0 (f(0)C)(f(0)+C)<0
推出当 C > ∣ f ′ ( 0 ) ∣ C>|f'(0)| C>f(0)时, w = 0 w=0 w=0就有可能是目标函数的极小点

参考材料

L1正则化与L2正则化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值