证明逻辑回归的目标函数是凸函数

最新推荐文章于 2022-08-16 12:02:35 发布

DeepGoAI

最新推荐文章于 2022-08-16 12:02:35 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法逻辑回归

本文链接：https://blog.csdn.net/Willen_/article/details/113982236

版权

机器学习专栏收录该内容

30 篇文章 2 订阅

订阅专栏

本文详细展示了如何通过计算逻辑回归目标函数的一阶和二阶导数，证明其是凸函数。首先计算了一阶导数，接着求解了Hessian矩阵，并利用矩阵特性验证了正定性，从而得出结论。关键步骤包括构造Hessian矩阵和利用正定矩阵的性质。

摘要由CSDN通过智能技术生成

证明逻辑回归的目标函数是凸函数

参考：https://zhuanlan.zhihu.com/p/76639936
假设有训练数据 $D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}$ , 其中 $(\mathbf{x}_i,y_i)$ 为每一个样本，而且 $\mathbf{x}_i$ 是样本的特征并且 $\mathbf{x}_i\in \mathcal{R}^D$ , $y_i$ 代表样本数据的标签（label）, 取值为 $0$ 或者 $1$ . 在逻辑回归中，模型的参数为 $(\mathbf{w},b)$ 。对于向量，我们一般用粗体来表达。为了后续推导的方便，可以把b融入到参数w中。这是参数 $w$ 就变成 $w=(w_0, w_1, .., w_D)$ ，也就是前面多出了一个项 $w_0$ , 可以看作是b，这时候每一个 $x_i$ 也需要稍作改变可以写成 $x_i = [1, x_i]$ 。

那么逻辑回归的目标函数（objective function）,把目标函数表示成最小化的形态。
$L(w)=-\frac{1}{m}\sum \left \{ y_{i}log( \sigma(w^{T} \cdot x_{i} ))+(1-y_{i})log(1-\sigma(w^{T} \cdot x_{i})) \right \}$

求解对w的一阶导数（参考matrix cookbook）
为了做梯度下降法，首先要对参数 $w$ 求导， $L (w)$ 对 $w$ 的梯度计算如下：
$\frac{\partial L(w)}{\partial w}=\frac{\partial L(w)}{\sigma(w^{T} \cdot x_{i} )}\cdot \frac{\partial \sigma(w^{T} \cdot x_{i} )}{\partial w^{T} \cdot x_{i} } \cdot x_{i}$
$=-\frac{1}{m}\sum \left \{ \left [y_{i}\frac{1}{\sigma} +(1-y_{i})\cdot \frac{-1}{1-\sigma}\right ] \cdot \sigma \cdot (1-\sigma) \cdot x_{i}\right \}$
$=-\frac{1}{m}\sum \left \{ \left [ y_{i}\cdot (1-\sigma) +(y_{i}-1)\cdot \sigma \right ] \cdot x_{i} \right \}$
$=\frac{1}{m}\sum \left \{ \left [ \sigma - y_{i} \right ] \cdot x_{i} \right \}$
求解对w的二阶导数（参考matrix cookbook）
然后，我们再在上面结果的基础上对 $w$ 求解二阶导数，也就是再求一次导数。
$\frac{\partial^2 L(w)}{\partial^2 w}=\frac{\partial^2 L(w)}{\partial w \partial w^{T}}=\frac{\partial \frac{1}{m}\sum \left \{ \left [ \sigma - y_{i} \right ] \cdot x_{i} \right \}}{\partial w^{T}}$
$=\left\{ \frac{\partial \frac{1}{m}\sum \left \{ \left [ \sigma - y_{i} \right ] \cdot x_{i} \right \}}{\partial w} \right \}^{T}$
$=\frac{1}{m}\sum \left \{ 1\cdot \sigma \cdot (1-\sigma)\cdot x_{i}\cdot x_{i}^{T} \right \}$
$=\frac{1}{m}\sum \left \{ \sigma \cdot (1-\sigma)\cdot x_{i}\cdot x_{i}^{T} \right \}$
证明逻辑回归目标函数是凸函数（参考matrix cookbook）
由上可知，我们获得了Hessian Matrix $h(w)=\frac{1}{m}\sum \left \{ \sigma \cdot (1-\sigma)\cdot x_{i}\cdot x_{i}^{T} \right \}$
hessian矩阵{j,k}元素为： $h_{j,k}(w)= \frac{1}{m}\sum \left \{ \sigma \cdot (1-\sigma)\cdot x_{i,k}\cdot x_{i,j} \right \}$
$\begin{bmatrix} h_{0,0}& h_{0,1} & ... &h_{0,D} \\ h_{1,0}& h_{1,1} & ... &h_{1,D} \\ ...& & & ...\\ h_{D,0}& h_{D,1} & ... &h_{D,D} \end{bmatrix}=$
$\begin{bmatrix} x_{1,0}& x_{2,0} & ... &x_{n,0} \\ x_{1,1}& x_{2,1} & ... &x_{n,1} \\ ...& & & ...\\ x_{1,D}& x_{2,D} & ... &x_{n,D} \\ \end{bmatrix} \cdot \begin{bmatrix} \sigma_{1}(1- \sigma_{1})& 0 & ... & 0 \\ 0& \sigma_{2}(1- \sigma_{2}) & ... & 0 \\ ...& & & ...\\ 0& 0 & ... & \sigma_{n}(1- \sigma_{n}) \\ \end{bmatrix} \cdot$
$\begin{bmatrix} x_{1,0}& x_{1,1} & ... &x_{1,D} \\ x_{2,0}& x_{2,1} & ... &x_{2,D}\\ ...& & & ...\\ x_{n,0}& x_{n,1} & ... &x_{n,D} \\ \end{bmatrix}$
令：
$X^{T}= \begin{bmatrix} x_{1,0}& x_{2,0} & ... &x_{n,0} \\ x_{1,1}& x_{2,1} & ... &x_{n,1} \\ ...& & & ...\\ x_{1,D}& x_{2,D} & ... &x_{n,D} \\ \end{bmatrix},V= \begin{bmatrix} \sigma_{1}(1- \sigma_{1})& 0 & ... & 0 \\ 0& \sigma_{2}(1- \sigma_{2}) & ... & 0 \\ ...& & & ...\\ 0& 0 & ... & \sigma_{n}(1- \sigma_{n}) \\ \end{bmatrix}$
则： $H=X^T \cdot V \cdot X$ 显然对任意i有
$\sigma_{i}(1-\sigma_{i})>0$ 所以 $V > 0$
假设有任意D+1维向量：
则 $A^{T}\cdot H \cdot A$ = $A^{T}\cdot X^{T} \cdot V \cdot X \cdot A$
= $XA)^{T}V(XA)$
令 $X\cdot A=P$
所以有 $A^{T}HA=P^{T}VP$
根据正定矩阵的充要条件对角矩阵 $V > 0$
所以 $P^{T}VP>0$ 所以 $H$ 是正定矩阵。所以逻辑回归的目标函数是凸函数,证明完毕。

参考：假设一个函数是凸函数，我们则可以得出局部最优解即为全局最优解，所以假设我们通过随机梯度下降法等手段找到最优解时我们就可以确认这个解就是全局最优解。证明凸函数的方法有很多种，在这里我们介绍一种方法，就是基于二次求导大于等于0。比如给定一个函数 $f(x)=x^2-3x+3$ ，做两次
求导之后即可以得出 $f^{''} (x) = 2 > 0$ ，所以这个函数就是凸函数。类似的，这种理论也应用于多元变量中的函数上。在多元函数上，只要证明二阶导数是posititive semidefinite即可以。问题（c）的结果是一个矩阵。为了证明这个矩阵（假设为H)为Positive Semidefinite，需要证明对于任意一个非零向量 $v\in \mathcal{R}$ , 需要得出 $v^{T}Hv >=0$

参考：
https://zhuanlan.zhihu.com/p/76639936
matrix cookbook: https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf, 还有 Hessian Matrix。

DeepGoAI

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
10
评论
证明逻辑回归的目标函数是凸函数

证明逻辑回归的目标函数是凸函数参考：https://zhuanlan.zhihu.com/p/76639936本文写法有部分不同假设有训练数据D={(x1,y1),...,(xn,yn)}D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}D={(x1,y1),...,(xn,yn)}, 其中(xi,yi)(\mathbf{x}_i,y_i)(xi,yi)为每一个样本，而且xi\mathbf{x}_ixi是样本的特征并且xi∈RD\mathbf{
复制链接

扫一扫

专栏目录