凸优化(Convex Optimization)浅析

最新推荐文章于 2024-08-23 23:17:06 发布

封不觉

最新推荐文章于 2024-08-23 23:17:06 发布

阅读量1.1w

点赞数 2

分类专栏：机器学习文章标签：机器学习凸优化

机器学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

凸优化(Convex Optimization)浅析

在机器学习中,很多情况下我们都需要求得一个问题的全局最优值(global optimum). 大多数的全局最优值很难求得, 但是对于凸问题,我们可以比较高效的找到其全局最优值, 这是由凸问题的性质决定的.我们将逐步的介绍凸集, 凸函数, 凸问题等.

1. 凸集(convex set)

对于一个集合 $C$ ,如果对于任意两个元素 $x,y \in C$ ),以及任意实数 $\theta \in \mathbb{R}$ 且 $0 \leq \theta \leq 1$ 都满足

θ x + (1 - θ) y \in C

$\theta x + (1-\theta)y\in C$

那么集合 $C$ 就是凸集.如下图所示:
凸优化1

凸集的例子包括:

Rn
- 非负象限 $\mathbb{R}_+^n$
- 范式球(Norm Ball), 亦即 ${x: \parallel x \parallel \leq 1}$ , 其中 $\parallel \cdot \parallel$ 是 $\mathbb{R}^n$ 上的范式
- 凸集的交集
- 半正定矩阵
- 2. 凸函数(convex function)
  
  如果一个函数 $f: \mathbb{R}^n \to \mathbb{R}$ 的定义域 $\mathcal{D}(f)$ 是凸集, 并且对于所有的 $x,y \in \mathcal{D}(f)$ 和 $\theta \in \mathbb{R}, 0 \leq \theta \leq 1$ 使得:
  
  $f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y)$ $f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)$
  
  则函数 $f(x)$ 是凸函数.
  
  如果把上述限制条件改为对于任意的 $x,y \in \mathcal{D}(f), x \neq y, 0 < \theta < 1$
  
  $f (θ x + (1 - θ) y) < θ f (x) + (1 - θ) f (y)$ $f(\theta x+(1-\theta)y) < \theta f(x)+(1-\theta)f(y)$
  
  函数 $f(x)$ 是严格凸(strictly convex)的.
  
  如果 $-f$ 是凸的, 则 $f$ 是凹(concave)的.
  
  凸函数如下图所示:
  
  2.1 凸函数的一阶条件
  
  如果一个函数 $f: \mathbb{R}^n \to \mathbb{R}$ 是可微的, 那么 $f$ 是凸函数当且仅当 $\mathcal{D}(f)$ 是凸集, 并且对于任意的 $x,y \in \mathcal{D}(f)$ :
  
  $f (y) > = f (x) + \nabla x f (x) T (y - x)$ $f(y)>=f(x)+\nabla_x f(x)^T(y-x)$
  
  其中 $f(x)+\nabla_x f(x)^T(y-x)$ 称为 $f$ 在点 $x$ 处的一阶近似. 上述性质如下图所示:
  
  2.2 凸函数的二阶条件
  
  函数 $f$ 是凸的当且仅当 $\mathcal{D}(f)$ 是凸集, 并且其Hessian矩阵是半正定的:
  
  $\nabla 2 x f (x) ⪰ 0$ $\nabla_x^2 f(x)\succeq 0$
  
  2.3 Jensen不等式
  
  凸函数的定义中有
  
  $f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y), 0 \leq θ \leq 1$ $f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y), \hspace{2 pt} 0 \leq \theta \leq 1$
  
  上式可以扩展到多个点的情况:
  
  $f (\sum i = 1 k θ i x i \leq \sum i = 1 k θ i f (x i)), \sum i = 1 k θ i = 1, θ i \geq 0$ $f(\sum_{i=1}^k \theta_ix_i \leq \sum_{i=1}^k\theta_if(x_i)) , \sum_{i=1}^k\theta_i=1, \theta_i \geq 0$
  
  也可以扩展到无限多个点或者某个区间的情况:
  
  $f (\int p (x) x d x) \leq \int p (x) f (x) d x, \int p (x) d x = 1, p (x \geq 0)$ $f(\int p(x)xdx) \leq \int p(x)f(x)dx , \int p(x)dx=1, p(x \geq 0)$
  
  亦即
  
  $f (E [x]) \leq E [f (x)]$ $f(\mathbb{E}[x]) \leq \mathbb{E}[f(x)]$
  
  上式称为Jensen不等式
  
  2.4 Sublevel集合
  
  $\alpha-sublevel$ 集合是凸集的一种, 对于一个函数 $f: \mathbb{R}^n \to \mathbb{R}$ , 以及一个实数 $\alpha \in \mathbb{R}$ , $\alpha-sublevel$ 集合的定义为
  
  $x \in D (f) : f (x) \leq α$ ${x \in \mathcal{D}(f) : f(x) \leq \alpha}$
  
  可以很容易的证明上述集合是凸集, 对于 $x,y \in \mathcal{D}(f)$ 使得 $f(x) \leq \alpha, f(y) \leq \alpha$ :
  
  $f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y) \leq θ α + (1 - θ) α = α$ $f(\theta x + (1-\theta)y) \leq \theta f(x)+(1-\theta)f(y) \leq \theta \alpha + (1-\theta)\alpha =\alpha$
  
  2.5 凸函数例子
  
  指数函数: $f: \mathbb{R} \to \mathbb{R}, f(x)=e^{\alpha x}$
  负对数: $f: \mathbb{R} \to \mathbb{R}, f(x)=-log x$
  仿射函数: $f: \mathbb{R} \to \mathbb{R}, f(x)=b^T x + c$
  二次函数: $f: \mathbb{R} \to \mathbb{R}, f(x)=\frac{1}{2}x^TAx + b^Tx + c$
  范式: $f: \mathbb{R} \to \mathbb{R}, f(x)=\parallel x \parallel$
  凸函数的非负加权和:
  
  $f (x) = \sum i = 1 k w i f i (x)$ $f(x)=\sum_{i=1}^k w_if_i(x)$ 其中 $f_1,f_2,...,f_k$ 是凸函数
  
  3. 凸优化问题
  
  凸优化问题的形式如下:
  
  $m i n i m i z e f (x)$ $minimize \hspace{2 pt} f(x)$
  
  $s u b j e c t t o x \in C$ $subject \hspace{2 pt} to \hspace{2 pt} x \in C$
  
  其中 $f$ 是凸函数, $C$ 凸集, $x$ 是待优化的变量, 我们通常可以把其写成
  
  $m i n i m i z e f (x)$ $minimize \hspace{2 pt} f(x)$
  
  $s u b j e c t t o g i (x) \leq 0, i = 1, . . ., m$ $subject \hspace{2 pt} to \hspace{2 pt} g_i(x) \leq 0, i=1,...,m$
  
  $h i (x) = 0, i = 1, . . ., p$ $h_i(x) = 0, i=1,...,p$
  
  其中 $f$ 和 $g_i$ 是凸函数, $h_i$ 是仿射函数.
  
  $g_i$ 必须小于等于0, 这样得到的 $x$ 的可行域(feasible region)才是凸的(因为 $g_i(x) \leq 0$ 定义了一个 $\alpha-sublevel$ 集)
  
  3.1 凸问题中的全局最优
  
  凸问题的一个很好地特性是其局部最优解也是全局最优解.推导如下
  
  首先定义局部最优解: 当 $x$ 是可行的(亦即位于可行域内), 而且存在 $R > 0$ , 使得对于所有 $\parallel x-z \parallel_2 \leq R$ 的位于可行点 $z$ ,使得 $f(x) \leq f(z)$ .
  
  然后定义全局最优解: 如果 $x$ 是可行的, 且对于其他所有的可行点 $z$ 都有 $f(x) \leq f(z)$
  
  凸问题中的全局最优解等同于局部最优解, 证明如下:
  
  令 $x$ 是一个局部最优解, 但不是全局最优解, 所以存在一个可行的点 $y$ 使得 $f(x) > f(y)$ .根据局部最优解的定义, 没有一个可行点 $z$ 满足 $\parallel x-z \parallel_2 \leq R, f(z) < f(x)$ . 但是, 我们可以选择
  $z = θ y + (1 - θ) x, θ = R 2 ∥ x - y ∥ 2$ $z=\theta y + (1-\theta)x, \theta=\frac{R}{2\parallel x-y \parallel_2}$
  
  那么
  
  $∥ x - z ∥ 2 = ∥ x = (R 2 ∥ x - y ∥ 2 y + (1 - R 2 ∥ x - y ∥ 2) x) ∥ 2$ $\parallel x-z \parallel_2=\parallel x=(\frac{R}{2\parallel x - y \parallel_2}y+(1-\frac{R}{2\parallel x - y \parallel_2})x)\parallel_2$
  
  $= ∥ R 2 ∥ x - y ∥ 2 (x - y) ∥ 2$ $=\parallel \frac{R}{2\parallel x - y\parallel_2}(x-y)\parallel_2$
  
  $= R / 2 \leq R$ $=R/2 \leq R$
  
  另外, 因为 $f$ 是凸函数, 所以
  
  $f (z) = f (θ y + (1 - θ) x) \leq θ f (y) + (1 - θ) f (x) < f (x)$ $f(z)=f(\theta y + (1-\theta)x) \leq \theta f(y) + (1-\theta)f(x) < f(x)$
  
  因为可行域是凸集, $x$ , $y$ 都是可行的, 所以 $z=\theta y + (1-\theta)x$ 也是可行的, 且 $\parallel x-z \parallel_2 < R, f(z) < f(x)$ , 假设不成立，所以 $x$ 是全局最优解.
  
  3.2 凸问题的例子
  
  线性规划(LP, Linear Programming):
  
  $m i n i m i z e c T x + d$ $minimize \hspace{2 pt} c^Tx+d$
  
  $s u b j e c t t o G x ⪰ h$ $subject \hspace{2 pt} to \hspace{2 pt} Gx \succeq h$
  $A x = b$ $Ax=b$
  
  二次规划(QP, Quadratic Programming):
  
  $m i n i m i z e 1 2 x T P x + c T x + d$ $minimize \hspace{2 pt} \frac{1}{2}x^TPx+c^Tx+d$
  $s u b j e c t t o G x ⪰ h$ $subject \hspace{2 pt} to \hspace{2 pt} Gx\succeq h$
  $A x = b$ $Ax=b$
  
  二次限制的二次优化(QCQP, quadratically constrained QP):
  
  $m i n i m i z e 1 2 x T P x + c T x + d$ $minimize \hspace{2 pt} \frac{1}{2}x^TPx+c^Tx+d$
  $s u b j e c t t o 1 2 x T Q i x + r T i x + s i \leq 0, i = 1, . . ., m$ $subject \hspace{2 pt} to \hspace{2 pt} \frac{1}{2}x^TQ_ix+r_i^Tx+s_i \leq 0, i=1,...,m$
  $A x = b$ $Ax=b$
  
  半定规划(Semidefinite Programming):
  
  $m i n i m i z e t r (C X)$ $minimize \hspace{2 pt} tr(CX)$
  $s u b j e c t t o t r (A i X) = b i, i = 1, . . ., p$ $subject \hspace{2 pt} to \hspace{2 pt} tr(A_iX)=b_i, i=1,...,p$
  $X ⪯ 0$ $X \preceq 0$
  
  参考文献:
  
  [1]. Zico Kolter, Honglak Lee. Convex Optimization Overview.
  
  [2]. Stephen Boyd, Lieven Vandenberghe. Convex Optimization.
  
  声明：
  
  本文转载自凸优化(Convex Optimization)浅析——博客园kemaswill.对原作者的付出表示感谢.版权归原作者所有.

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。