Chap 7深度学习中的正则化——L1正则化公式推导

博客对(7.22)到(7.23)进行推导,在给定Hi,i>0、α>0、wi在wi∗某邻域等条件下,通过对函数求偏导,分wi<0和wi>0两种情况求解,最终得出wi=sign(wi∗)max{∣wi∗∣−Hi,iα,0}的结论,涉及深度学习中正则化的数学推导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对(7.22)到(7.23)进行一个推导(不保证严谨性)
在这里插入图片描述
已知: H i , i > 0 , α > 0 , w i 在 w i ∗ 某 邻 域 U ( w i , δ ) 内 , δ 充 分 小 使 得 s i g n ( w i ) = s i g n ( w i ∗ ) H_{i,i}>0,\alpha>0,w_i在w_i^*某邻域U(w_i,\delta)内,\delta充分小使得\mathrm{sign}(w_i)=\mathrm{sign}(w_i^*) Hi,i>0,α>0,wiwiU(wi,δ)δ使sign(wi)=sign(wi)
证明:

f i ( w i ) = 1 2 H i , i ( w i − w i ∗ ) 2 + α ∣ w i ∣ f_i(w_i)=\dfrac{1}{2}H_{i,i}(w_i-w_i^*)^2+\alpha|w_i| fi(wi)=21Hi,i(wiwi)2+αwi
J ^ ( w ; X , y ) = J ( w ∗ ; X , y ) + ∑ i f i ( w i ) ( 1 ) \hat{J}(w;X,y)=J(w^*;X,y)+\sum_if_i(w_i) \qquad(1) J^(w;X,y)=J(w;X,y)+ifi(wi)(1)
∂ J ^ ∂ w i = ∂ f i ∂ w i = 0 \frac{\partial \hat{J}}{\partial w_i}=\frac{\partial f_i}{\partial w_i}=0 wiJ^=wifi=0
H i , i ( w i − w i ∗ ) + α s i g n ( w i ) = 0 ( 2 ) H_{i,i}(w_i-w_i^*)+\alpha \mathrm{sign}(w_i)=0\qquad(2) Hi,i(wiwi)+αsign(wi)=0(2)
(i) 当 w i < 0 , s i g n ( w i ) = − 1 , 代 入 ( 2 ) , 解 得 w_i<0, \mathrm{sign}(w_i)=-1,代入(2),解得 wi<0,sign(wi)=1,(2),
w i = H i , i w i ∗ + α H i , i = w i ∗ + α H i , i = s i g n ( w i ∗ ) ( ∣ w i ∗ ∣ − α H i , i ) ( 3 ) w_i=\frac{H_{i,i}w^*_i+\alpha}{H_{i,i}}=w^*_i+\frac{\alpha}{H_{i,i}}=\mathrm{sign}(w_i^*)(|w_i^*|-\frac{\alpha}{H_{i,i}}) \qquad(3) wi=Hi,iHi,iwi+α=wi+Hi,iα=sign(wi)(wiHi,iα)(3)
∵ w i < 0 ∴ w i ∗ < − α H i , i 或 ∣ w i ∗ ∣ > α H i , i \because w_i<0 \quad\therefore w_i^*<-\frac{\alpha}{H_{i,i}}或|w_i^*|>\frac{\alpha}{H_{i,i}} wi<0wi<Hi,iαwi>Hi,iα
− α H i , i < w i ∗ < 0 或 ∣ w i ∗ ∣ < α H i , i -\frac{\alpha}{H_{i,i}}<w_i^*<0或|w_i^*|<\frac{\alpha}{H_{i,i}} Hi,iα<wi<0wi<Hi,iα
∂ f i ∂ w i = H i , i w i − H i , i w i ∗ − α < − H i , i w i ∗ − α < 0 \frac{\partial f_i}{\partial w_i}=H_{i,i}w_i-H_{i,i}w_i^*-\alpha<-H_{i,i}w_i^*-\alpha<0 wifi=Hi,iwiHi,iwiα<Hi,iwiα<0
(ii) 当 w i > 0 , s i g n ( w i ) = 1 , 代 入 ( 2 ) , 解 得 w_i>0, \mathrm{sign}(w_i)=1,代入(2),解得 wi>0,sign(wi)=1,(2),
w i = H i , i w i ∗ − α H i , i = w i ∗ − α H i , i = s i g n ( w i ∗ ) ( ∣ w i ∗ ∣ − α H i , i ) ( 4 ) w_i=\frac{H_{i,i}w^*_i-\alpha}{H_{i,i}}=w^*_i-\frac{\alpha}{H_{i,i}}=\mathrm{sign}(w_i^*)(|w_i^*|-\frac{\alpha}{H_{i,i}})\qquad(4) wi=Hi,iHi,iwiα=wiHi,iα=sign(wi)(wiHi,iα)(4)
∵ w i > 0 ∴ w i ∗ > α H i , i 或 ∣ w i ∗ ∣ > α H i , i \because w_i>0 \quad\therefore w_i^*>\frac{\alpha}{H_{i,i}}或|w_i^*|>\frac{\alpha}{H_{i,i}} wi>0wi>Hi,iαwi>Hi,iα
0 < w i ∗ < α H i , i 或 ∣ w i ∗ ∣ < α H i , i 0<w_i^*<\frac{\alpha}{H_{i,i}}或|w_i^*|<\frac{\alpha}{H_{i,i}} 0<wi<Hi,iαwi<Hi,iα
∂ f i ∂ w i = H i , i w i − H i , i w i ∗ + α > − H i , i w i ∗ + α > 0 \frac{\partial f_i}{\partial w_i}=H_{i,i}w_i-H_{i,i}w_i^*+\alpha>-H_{i,i}w_i^*+\alpha>0 wifi=Hi,iwiHi,iwi+α>Hi,iwi+α>0

由(i)(ii)(iii),当 ∣ w i ∗ ∣ ≥ α H i , i |w_i^*|\ge\dfrac{\alpha}{H_{i,i}} wiHi,iα,解析解 w i = s i g n ( w i ∗ ) ( ∣ w i ∗ ∣ − α H i , i ) w_i=\mathrm{sign}(w_i^*)(|w_i^*|-\dfrac{\alpha}{H_{i,i}}) wi=sign(wi)(wiHi,iα)
在这里插入图片描述

∣ w i ∗ ∣ ≤ α H i , i |w_i^*|\le\dfrac{\alpha}{H_{i,i}} wiHi,iα,有
∂ f i ∂ w i = { − H i , i w i ∗ − α < 0 w i < 0 − H i , i w i ∗ + α > 0 w i > 0 \frac{\partial f_i}{\partial w_i}= \begin{cases} -H_{i,i} w_i^*-\alpha<0 & w_i<0 \\ -H_{i,i} w_i^*+\alpha>0& w_i>0 \end{cases} wifi={Hi,iwiα<0Hi,iwi+α>0wi<0wi>0
故在负半轴偏导数单调递减,在正半轴偏导数单调递增,即在 w i = 0 w_i=0 wi=0处取得偏导数的极小值。
在这里插入图片描述

综上, w i = s i g n ( w i ∗ ) max ⁡ { ∣ w i ∗ ∣ − α H i , i , 0 } w_i=\mathrm{sign}(w_i^*)\max\{|w_i^*|-\dfrac{\alpha}{H_{i,i}},0\} wi=sign(wi)max{wiHi,iα,0}
证毕。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值