凸优化笔记(3)

cug第一深情

已于 2023-02-25 15:46:50 修改

阅读量1.9k

点赞数

文章标签：机器学习人工智能

于 2022-07-28 20:49:27 首次发布

本文链接：https://blog.csdn.net/qq_45968933/article/details/126043573

版权

$R^n$ 空间的范数, $P(x),x\in R^n$
- $p (a x) = ∣ a ∣ p (x)$
- $p(x+y)\leq p(x)+p(y)$
- $\Leftrightarrow x=0$
证明范数是凸函数
$\forall x,y \in R^n,\forall 0 \leq \theta \leq 1$
$p(\theta x +(1-\theta)y) \leq p(\theta x)+p((1-\theta)y)$ $p(\theta x +(1-\theta)y) \leq \theta p(x)+(1-\theta)p(y)$
零范数不是范数，也不是凸函数
$x\|_0=$ 非零元素数目
考虑 $x\in R$ 并进行扩展
$\begin{cases} 1,x \neq 0 \\ 0,x=0 \end{cases}$

$f(x)=max\{x_1,\cdots,x_n\}$
$\rightarrow x,y\in R^n,\forall 0 \leq \theta \leq 1$
$f(\theta x+(1-\theta)y)=max\{f(\theta x_i+(1-\theta)y_i)\}$
$\leq \theta max\{x_i\}+max\{(1-\theta)y_i\}$
$=\theta f(x)+(1-\theta)f(y)$
但是这种极大值函数不可导,所以要进行解析逼近 $(l o g - s u m - u p)$
$f(x)=log(e^{x_1}+\cdots+e^{x_n})$
$\rightarrow max\{x_1,\cdots,x_n\} \leq f(x) \leq max\{x_1,\cdots,x_n\}+log(n)$
$\rightarrow$ 证明该函数是凸的,通过凸函数第四个定义来进行证明
$\Large \rightarrow \frac{\partial f}{\partial x_i}=\frac{e^{x_i}}{e^{x_1}+\cdots+e^{x_n}}$ ,再求二阶导
- $\Large i\neq j$
  $\Large \rightarrow \frac{\partial^2f}{\partial x_i \partial x_j}=\frac{-e^{x_i}e^{x_j}}{(e^{x_1}+\cdots+e^{x_n})^2}$
- $\Large i = j$
  $\Large \rightarrow \frac{\partial^2f}{\partial x_i \partial x_j}=\frac{-e^{x_i}e^{x_i}+e^{x_i}(e^{x_i}+\cdots+e^{x_n})}{(e^{x_1}+\cdots+e^{x_n})^2}$

然后通过判断该函数二阶导的Hessian矩阵是不是半正定的即可

$\forall f_i,w_i \geq 0,f_i$ 为凸函数 $g=\sum w_if_i$ 也是凸函数,易证
$f(x,y),\forall y\in A,f(x,y)$ 为凸, $f (x, y)$ 不一定是一个凸函数
$\rightarrow w(y) \geq 0, \forall y \in A$
$\rightarrow g(x)=\int_{y\in A}w(y)f(x,y)dy$ 是凸函数

$f:R^n \rightarrow R \quad A \in R^{n \times m},b\in R^n$
$\quad Ax+b \in domf$ 易证不难
$f_i:R^n \rightarrow R,i=1,\cdots,m$ 为凸, $\in R^n ,b \in R$
$g(x)=A^T[f_i,\cdots,f_n]+b$ 不是一个凸函数,因为带加权的凸函数组合，必须要保证权重是正的

$f_1,f_2$ 为凸函数,则 $f(x)=max\{f_1(x),f_2(x)\}$ 也是凸函数, $domf=domf_1 \bigcap domf f_2$
向量中 $r$ 个最大元素的和, $\in R^n$
$x [i]$ 是第 $i$ 大元素
$f(x)=\sum_{i}^{r}x[i]$
$\rightarrow f(x)=max\{x_i+\cdots+x_r|i_1,\cdots,i_r\}$ 首先该函数中的每一个都算是仿射变换函数
$\rightarrow f_i(x)=\{A_ix|i_1,\cdots,i_r\}$
$\rightarrow f(x)=max\{f_i(x)|i \in C_n^r\}$
$f (x, y)$ 对于 $x$ 为凸, $\forall y \in A:$ $g = s u p f (x, y)$ 无限个凸函数的最大值也是一个凸函数
- 例子：实对称矩阵的最大特征值
  $\rightarrow f(x)=\lambda_{max}(x),domf=S^{m*m}$
  $\rightarrow xy=\lambda y$
  $\rightarrow y^Txy=y^T\lambda y$
  $\rightarrow y^Txy=\lambda \|y\|^2$
  $\large \rightarrow \lambda=\frac{y^Txy}{\|y\|^2}$
  假设 $y\|^2=1$
  $\large \rightarrow \lambda_{max}(x)=sup\{y^Txy|\|y\|^2=1\}$
  $\rightarrow$ 上述式子是一个凸函数,因为 $y^Txy$ 是一个关于x的线性变换,不影响凸性, $s u p$ 函数也不影响凸性

$h:R^k \rightarrow R,\quad g:R^n \rightarrow R^k$
$\cdot g=h(g(x)):R^n \rightarrow R \quad domf=\{x \in domg|g(x)\in domh\}$
一维： $k = n = 1$ 假设为实数空间
- $d o m f = d o mh = d o m f = R$
- $h, g$ 都是二阶可微
$f^{''}(x)=h^{''}(g(x))g^{'}(x)^2+h^{'}(g(x))g^{''}(x) \geq 0$
- $h$ 为凸,不降 $g$ 为凸,则 $f$ 为凸函数
- $h$ 为凸,不增 $g$ 为凹,则 $f$ 为凸函数
- $h$ 为凹,不降 $g$ 为凹,则 $f$ 为凹函数
- $h$ 为凹,不增 $g$ 为凸,则 $f$ 为凹函数

实际情况下,下面的几个条件都不能够满足

高维： $\geq 1$
- $h, g$ 二阶不可微
需要将 $h$ 进行一下扩展得到 $\hat{h}$
- $h$ 为凸, $\hat{h}$ 不降 $g$ 为凸,则 $f$ 为凸函数
- $h$ 为凸, $\hat{h}$ 不增 $g$ 为凹,则 $f$ 为凸函数
- $h$ 为凹, $\hat{h}$ 不降 $g$ 为凹,则 $f$ 为凹函数
- $h$ 为凹, $\hat{h}$ 不增 $g$ 为凸,则 $f$ 为凹函数
证明上述第一个: $h$ 为凸, $\hat{h}$ 不降 $g$ 为凸,则 $f$ 为凸函数
$\rightarrow \forall x,y\in domf,\quad 0 \leq \theta \leq 1,\quad g$ 为凸, $\in domg,g(x),g(y) \in domh$
$\rightarrow h$ 为凸,故 $d o mh$ 为凸, $\in domh$
$\rightarrow g(\theta x+(1-\theta)y) \leq \theta g(x)+(1-\theta)g(y)$
$\rightarrow f(\theta x+(1-\theta)y)=h(g(\theta x+(1-\theta)y))$
$\rightarrow $需要证明子问题：$ g(\theta x+(1-\theta)y) \in domh$
$\rightarrow$ 假设 $g(\theta x+(1-\theta)y) \notin domh$ ,对于 $h$ 的扩展 $\hat{h}$ 有
$\rightarrow \hat{h}(g(\theta x+(1-\theta)y) \leq \hat{h}(\theta g(x)+(1-\theta)g(y))$
$\rightarrow$ 如果 $g(\theta x+(1-\theta)y$ 不在 $d o mh$ 中,那么左式值为正无穷,此时如果还要保证上式的成立,必须保证 $\theta g(x)+(1-\theta)g(y)$ 是正无穷,无意义
$\rightarrow$ 即： $g(\theta x+(1-\theta)y) \in domh$
$\rightarrow f(\theta x+(1-\theta)y)=h(g(\theta x+(1-\theta)y)) \leq h(\theta g(x)+(1-\theta)g(y))$
$=\theta h(g(x))+(1-\theta)h(g(y))$
$=\theta f(x)+(1-\theta)f(y)$