Logistic Regression的Lipchitz连续梯度

置顶 Mrfive555

已于 2024-04-07 23:44:20 修改

阅读量1.4k

点赞数 5

分类专栏：数学文章标签：机器学习算法人工智能

于 2018-11-08 17:01:06 首次发布

本文链接：https://blog.csdn.net/Mrfive555/article/details/83864256

版权

数学专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Logistic Regression（逻辑回归）是机器学习中的经典任务，表示为下面一个优化问题：
$min_w f(w)$
其中，
$\begin{aligned} f(w)&= \frac{\lambda}{2}\|w\|^2+\frac{1}{n}\sum_{i=1}^{n}\ln(1+e^{-y_ix_i^Tw})\\ &= \frac{\lambda}{2}\|w\|^2+\frac{1}{n}\sum_{i=1}^{n}f_i(w)\\ f_i(w)&=\ln(1+e^{-y_ix_i^Tw}) \\ \nabla f_i(w)&=-\frac{e^{-y_ix_i^Tw}}{1+e^{-y_ix_i^Tw}}\cdot y_ix_i, \\ \end{aligned}$
$x_i$ ， $y_i$ 为第 $i$ 个数据的特征和标签
一个一阶可导函数 $f_i$ 具有 $L$ -Lipschitz连续梯度（ $L$ -光滑）是指存在常数 $L$ ，对任意 $a,b\in \mathop{dom}(f)$ ，满足
$\|\nabla f_i(a)-\nabla f_i(b)\|\le L\|a-b\|$
在LR问题中， $f (w)$ 拥有 $L$ -Lipchitz连续梯度，且 $L=\lambda+\frac{1}{4n}\|X\|^2_F$ ，其中 $X=[x_1; x_2; \cdots; x_n]$ 是数据矩阵， $\|\cdot\|_F$ 是矩阵的Frobenius范数。

证明：
$\begin{aligned} \|\nabla f_i(a)-\nabla f_i(b)\| &=\left\|\frac{e^{-y_ix_i^Ta}}{1+e^{-y_ix_i^Ta}}-\frac{e^{-y_ix_i^Tb}}{1+e^{-y_ix_i^Tb}}\right\|\cdot \|x_i\| \\ &=\left\|\sigma(y_ix_i^Ta)-\sigma(y_ix_i^Tb)\right\|\cdot \|x_i\| \\ &\le \frac{1}{4}\|y_ix_i^T(a-b)\|\cdot \|x_i\| \\ &= \frac{1}{4}\|x_i^T(a-b)\|\cdot \|x_i\| \\ &\le \frac{1}{4}\|x_i\|\cdot\|a-b\|\cdot \|x_i\| \\ &= \frac{1}{4}\|x_i\|^2\cdot\|a-b\|, \end{aligned}$
其中sigmoid函数定义为 $\sigma(z)=\frac{1}{1+e^{-z}}$ ，其满足Lipschitz连续性，Lipschitz常数为 $\frac{1}{4}$ 。
取 $L_i=\frac{1}{4}\|x_i\|^2$ ，则 $\|\nabla f_i(a)-\nabla f_i(b)\|\le L_i\|a-b\|$ ，且
$L=\lambda+\frac{1}{n}\sum_{i=1}^{n}L_i=\lambda+\frac{1}{4n}\sum_{i=1}^{n}\|x_i\|^2=\lambda+\frac{1}{4n}\|X\|^2_F,$
则 $\|\nabla f'(a)-\nabla f'(b)\|\le L\|a-b\|$

下面证明一个性质： $\sigma(z)=\frac{1}{1+e^{-z}}$ 满足Lipschitz连续性，即
$|\sigma(z)-\sigma(z')|\le \frac{1}{4}|z-z'|$

证明：连续函数一阶导数的绝对值上界就是一个Lipschitz常数。
我们有 $0<\sigma(x)<1$ 。则
$\begin{align} \sigma'(x)=&h(x)(1-h(x)) \\ %h''(x)=&h(x)-3h(x)^2+2h(x)^3 \\ %=&h(x)(h(x)-1)(2h(x)-1) |\sigma'(x)|\le&\frac{1}{4} \end{align}$