凸函数二阶条件的理解及常见函数解析

最新推荐文章于 2025-04-16 11:19:09 发布

Ordinary_yfz

最新推荐文章于 2025-04-16 11:19:09 发布

阅读量9.3k

点赞数 3

分类专栏：科研之路：Mobile+AI+game theory

本文链接：https://blog.csdn.net/csyifanZhang/article/details/105967399

版权

科研之路：Mobile+AI+game theory 专栏收录该内容

27 篇文章

订阅专栏

判定凸函数有一阶和二阶条件两种方式，一阶条件即，

假设 $f$ 可微，则函数 $f$ 是凸函数的充分必要条件是 $d o m f$ 是凸集且对于任意 $x,y\in dom f$ ，下式成立
$f(y)\geq f(x)+\nabla f(x)^T(y-x)$
下图是他在图形上的描述，具体证明可以看下面这个blog

https://blog.csdn.net/JiZhG/article/details/52262746?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158881838419725211937190%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.57644%2522%257D&request_id=158881838419725211937190&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_v2~rank_v25-1

在这里插入图片描述

一阶条件在工作中很少被使用，我们往往使用的是二阶条件来判定函数的凸性，二阶条件涉及到了Hessian matrix，他是这样定义的。

Hessian matrix

在数学中，海森矩阵（Hessian matrix 或 Hessian）是一个多变量实值函数的二阶偏导数组成的方块矩阵，假设有一实数函数 $f(x_1,x_2,...,x_n)$ ，如果 $f$ 的所有的二阶偏导数都存在，那么 $f$ 的海森矩阵的第 $i j -$ 项即： $H(f)_{ij}(x)=D_iD_jf(x)$ ，完整的矩阵长下面这样----搜狗百科

在这里插入图片描述

二阶条件

现假设 $f$ 二阶可微, 即对于开集 $d o m f$ 内的任意一点, $f$ 的二阶导或者 $H e s s i a n$ 矩阵存在, 则函数 $f$ 是凸函数的充要条件是, 其Hessian矩阵半正定, 即 $\forall x \in d o m f$ , 有
$\nabla^2f(x)\succeq0$
对于R上的函数, 上式退化为 $f'' (x) ⩾ 0$ . 该条件表明函数 $f$ 的导数非减, 从几何上解释就是函数 $f$ 在点 $x$ 处具有向上(正)的曲率.

需要注意的一个性质是，对于 $\nabla^2f(x)\succ0$ ，他去掉了等于的条件，可以证明函数 $f (x)$ 是严格凸的，但是反过来无法得到，也就是说严格凸，不一定满足 $\nabla^2f(x)\succ0$ 。

考虑 $f(x)=x^4$ ，这个函数显然是凸的，但是他的二阶导数 $12x^2$ 是可以等于0的，不一定完全大于0。

$\textbf{最常用的凸函数：二次函数}$
$f:R^n\rightarrow R,\;\;dom f=R^n,\;\; P\in S^n,\;\;Q\in R^n,\;\; r\in R$
$f(x)=\frac{1}{2}x^TPx+Q^Tx+r$
这是一个二次函数，由于自变量是向量，所以二次项写为 $x^TPx$ 。P一般要求是一个对称的矩阵，Q是向量，R是标量。我们验证一下该函数何时凸，何时凹。

他的海森矩阵就是P，我们只需要判断P是正定，半正定还是半负定。而且该二次函数满足一个性质，如果P是正定的那么函数一定是严格凸的，反过来也可以证明，即严格凸能得到P是正定的，这是为数不多能得到这个性质的函数。

$\textbf{定义域一定要是凸集}$
考虑 $f(x)=\frac{1}{x^2}$ ，他的二阶导数 $f''(x)=6x^{-4}>0$ ，但是他显然不是一个凸函数， $x = 0$ 是他的一个奇异值点，它在左侧凸函数，也在右侧凸函数，但整体不是凸函数。也就是说，如果他的定义域都不是凸集，那么他一定不是凸函数。
在这里插入图片描述

常见函数的辨析

能用二阶条件判定的常见函数

仿射，指数函数，幂函数，绝对值的幂函数，对数函数，负熵

$\color{blue}仿射函数：f(x)=Ax+b,\nabla^2 f(x)=0$
显然它既是半正定，也是半负定，因此既是凸函数也是凹函数。

$\color{blue}指数函数：f(x)=e^{ax},x\in R, a\in R$
$f'(x)=ae^{ax}, f''(x)=a^2e^{ax}\geq0$ ，因此该函数一定是凸函数。

$\color{blue}幂函数：f(x)=x^a,x\in R_{++}, a\in R$
x一定是一个正数， $f'(x)=ax^{a-1}, f''(x)=a(a-1)x^{a-2}$ ，此时显然他不是任何时候都满足 $\geq 0$ ，因此需要分情况进行讨论。
在这里插入图片描述
有两点比较特殊，当 $a = 1$ 或者 $a = 0$ 的时候，它变成了仿射函数和常数，显然既是凸的也是凹的。

$\color{blue}绝对值的幂函数：f(x)=|x|^p,x\in R, a\in R$
这里将x的限制去掉，但是我们不想结果是负的，所以加上绝对值，注意p不能等于1，|x|函数是一阶不可导的。（但是需要注意p=1时，|x|是凸函数），然后考虑 $p! = 1$ 的场景。此时我们求其二阶导数：
在这里插入图片描述
显然 $p\geq 1$ 时，这是一个凸函数，在 $p < 1$ 的时候是没有一个统一的结论的。

$\color{blue}对数函数：f(x)=\log{x},x\in R_{++}$
对数函数一定是凹函数，他的二阶导数 $f''(x)=-\frac{1}{x^2}<0$ ，所以这是一个严格凹函数。

$\color{blue}负熵：f(x)=x\log{x},x\in R_{++}$

$f''(x)=\frac{1}{x}$ ，是一个严格凸的函数。在信息论里我们总是要极大化熵，也就是找到熵这个凹函数的最大值。

范数-零范数

$R^n空间的范数 p(x) x\in R^n$
范数是满足以下三个性质的函数

$p (a x) = ∣ a ∣ p (x)$
$p(x+y)\leq p(x)+p(y)$
$p (x) = 0 当且仅当 x = 0$

此时我们不能求二阶导数，因此需要使用一阶条件来证明他确实是一个凸函数。

$零范数 ||x||_0=非零元素的个数$
零范数不是范数，他也不是一个凸函数。为什么他不满足范数的定义呢，其实是不满足第一个条件。

极值函数与解析逼近

$\mathbf{极大值函数 f(x)=\max\{x_1,...,x_n\},x\in R^n}$
显然我们无法求二阶导数，因此我们使用他的定义，对 $\forall x,y\in R^n,\forall 0\leq\theta\leq 1$

那么我们有
$f(\theta x+(1-\theta )y)=\max\{\theta x_i+(1-\theta)y_i,i=1,...,n\}$
也就是把x,y的每一个元素都单独拿出来求其中的最大值，然后我们可以得到
$f(\theta x+(1-\theta )y)\leq \theta\max\{x_i,i=1...n\}+(1-\theta)\max\{y_i,i=1...n\}=\theta f(x)+(1-\theta)f(y)$
得证。

但是对于极大值函数他是不可导的，优化比较麻烦，我们通常给他做一个可导的近似优化，叫做解析逼近。
$\textbf{log-sum-up}$
首先我们对所有的元素进行一个操作
$f(x)=\log(e^{x1}+...+e^{xn});x\in R^n$
这个函数满足一个非常好的性质，
$\max\{x_1,...,x_n\}\leq f(x)\leq \max\{x_1,...,x_n\}+\log n$
然后我们证明这个解析逼近是一个凸函数，直接求二阶偏导。
在这里插入图片描述
之后的证明涉及了柯西斯瓦兹不等式以及一系列变换，详细推导来这里