Logistic Regression的Lipchitz连续梯度

Logistic Regression(逻辑回归)是机器学习中的经典任务,表示为下面一个优化问题:
min ⁡ w f ( w ) \min_w f(w) wminf(w)
其中,
f ( w ) = λ 2 ∥ w ∥ 2 + 1 n ∑ i = 1 n ln ⁡ ( 1 + e − y i x i T w ) = λ 2 ∥ w ∥ 2 + 1 n ∑ i = 1 n f i ( w ) f i ( w ) = ln ⁡ ( 1 + e − y i x i T w ) ∇ f i ( w ) = − e − y i x i T w 1 + e − y i x i T w ⋅ y i x i , \begin{aligned} f(w)&= \frac{\lambda}{2}\|w\|^2+\frac{1}{n}\sum_{i=1}^{n}\ln(1+e^{-y_ix_i^Tw})\\ &= \frac{\lambda}{2}\|w\|^2+\frac{1}{n}\sum_{i=1}^{n}f_i(w)\\ f_i(w)&=\ln(1+e^{-y_ix_i^Tw}) \\ \nabla f_i(w)&=-\frac{e^{-y_ix_i^Tw}}{1+e^{-y_ix_i^Tw}}\cdot y_ix_i, \\ \end{aligned} f(w)fi(w)fi(w)=2λw2+n1i=1nln(1+eyixiTw)=2λw2+n1i=1nfi(w)=ln(1+eyixiTw)=1+eyixiTweyixiTwyixi,
x i x_i xi y i y_i yi为第 i i i个数据的特征和标签
一个一阶可导函数 f i f_i fi具有 L L L-Lipschitz连续梯度( L L L-光滑)是指存在常数 L L L,对任意 a , b ∈ d o m ( f ) a,b\in \mathop{dom}(f) a,bdom(f),满足
∥ ∇ f i ( a ) − ∇ f i ( b ) ∥ ≤ L ∥ a − b ∥ \|\nabla f_i(a)-\nabla f_i(b)\|\le L\|a-b\| ∥∇fi(a)fi(b)Lab
在LR问题中, f ( w ) f(w) f(w)拥有 L L L-Lipchitz连续梯度,且 L = λ + 1 4 n ∥ X ∥ F 2 L=\lambda+\frac{1}{4n}\|X\|^2_F L=λ+4n1XF2,其中 X = [ x 1 ; x 2 ; ⋯   ; x n ] X=[x_1; x_2; \cdots; x_n] X=[x1;x2;;xn]是数据矩阵, ∥ ⋅ ∥ F \|\cdot\|_F F是矩阵的Frobenius范数。

证明:
∥ ∇ f i ( a ) − ∇ f i ( b ) ∥ = ∥ e − y i x i T a 1 + e − y i x i T a − e − y i x i T b 1 + e − y i x i T b ∥ ⋅ ∥ x i ∥ = ∥ σ ( y i x i T a ) − σ ( y i x i T b ) ∥ ⋅ ∥ x i ∥ ≤ 1 4 ∥ y i x i T ( a − b ) ∥ ⋅ ∥ x i ∥ = 1 4 ∥ x i T ( a − b ) ∥ ⋅ ∥ x i ∥ ≤ 1 4 ∥ x i ∥ ⋅ ∥ a − b ∥ ⋅ ∥ x i ∥ = 1 4 ∥ x i ∥ 2 ⋅ ∥ a − b ∥ , \begin{aligned} \|\nabla f_i(a)-\nabla f_i(b)\| &=\left\|\frac{e^{-y_ix_i^Ta}}{1+e^{-y_ix_i^Ta}}-\frac{e^{-y_ix_i^Tb}}{1+e^{-y_ix_i^Tb}}\right\|\cdot \|x_i\| \\ &=\left\|\sigma(y_ix_i^Ta)-\sigma(y_ix_i^Tb)\right\|\cdot \|x_i\| \\ &\le \frac{1}{4}\|y_ix_i^T(a-b)\|\cdot \|x_i\| \\ &= \frac{1}{4}\|x_i^T(a-b)\|\cdot \|x_i\| \\ &\le \frac{1}{4}\|x_i\|\cdot\|a-b\|\cdot \|x_i\| \\ &= \frac{1}{4}\|x_i\|^2\cdot\|a-b\|, \end{aligned} ∥∇fi(a)fi(b)= 1+eyixiTaeyixiTa1+eyixiTbeyixiTb xi= σ(yixiTa)σ(yixiTb) xi41yixiT(ab)xi=41xiT(ab)xi41xiabxi=41xi2ab,
其中sigmoid函数定义为 σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1,其满足Lipschitz连续性,Lipschitz常数为 1 4 \frac{1}{4} 41
L i = 1 4 ∥ x i ∥ 2 L_i=\frac{1}{4}\|x_i\|^2 Li=41xi2,则 ∥ ∇ f i ( a ) − ∇ f i ( b ) ∥ ≤ L i ∥ a − b ∥ \|\nabla f_i(a)-\nabla f_i(b)\|\le L_i\|a-b\| ∥∇fi(a)fi(b)Liab,且
L = λ + 1 n ∑ i = 1 n L i = λ + 1 4 n ∑ i = 1 n ∥ x i ∥ 2 = λ + 1 4 n ∥ X ∥ F 2 , L=\lambda+\frac{1}{n}\sum_{i=1}^{n}L_i=\lambda+\frac{1}{4n}\sum_{i=1}^{n}\|x_i\|^2=\lambda+\frac{1}{4n}\|X\|^2_F, L=λ+n1i=1nLi=λ+4n1i=1nxi2=λ+4n1XF2,
∥ ∇ f ′ ( a ) − ∇ f ′ ( b ) ∥ ≤ L ∥ a − b ∥ \|\nabla f'(a)-\nabla f'(b)\|\le L\|a-b\| ∥∇f(a)f(b)Lab


下面证明一个性质: σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1满足Lipschitz连续性,即
∣ σ ( z ) − σ ( z ′ ) ∣ ≤ 1 4 ∣ z − z ′ ∣ |\sigma(z)-\sigma(z')|\le \frac{1}{4}|z-z'| σ(z)σ(z)41zz

证明:连续函数一阶导数的绝对值上界就是一个Lipschitz常数。
我们有 0 < σ ( x ) < 1 0<\sigma(x)<1 0<σ(x)<1。则
σ ′ ( x ) = h ( x ) ( 1 − h ( x ) ) ∣ σ ′ ( x ) ∣ ≤ 1 4 \begin{align} \sigma'(x)=&h(x)(1-h(x)) \\ %h''(x)=&h(x)-3h(x)^2+2h(x)^3 \\ %=&h(x)(h(x)-1)(2h(x)-1) |\sigma'(x)|\le&\frac{1}{4} \end{align} σ(x)=σ(x)h(x)(1h(x))41

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值