凸优化(Convex Optimization)浅析

凸优化(Convex Optimization)浅析

在机器学习中,很多情况下我们都需要求得一个问题的全局最优值(global optimum). 大多数的全局最优值很难求得, 但是对于凸问题,我们可以比较高效的找到其全局最优值, 这是由凸问题的性质决定的.我们将逐步的介绍凸集, 凸函数, 凸问题等.

1. 凸集(convex set)

对于一个集合 C ,如果对于任意两个元素x,yC),以及任意实数 θR 0θ1 都满足

θx+(1θ)yC

那么集合 C 就是凸集.如下图所示:
凸优化1

凸集的例子包括:

  • Rn

    • 非负象限 Rn+
    • 范式球(Norm Ball), 亦即 x:x1 , 其中 Rn 上的范式
    • 凸集的交集
    • 半正定矩阵
    • 2. 凸函数(convex function)

      如果一个函数 f:RnR 的定义域 D(f) 是凸集, 并且对于所有的 x,yD(f) θR,0θ1 使得:

      f(θx+(1θ)y)θf(x)+(1θ)f(y)

      则函数 f(x) 是凸函数.

      如果把上述限制条件改为对于任意的 x,yD(f),xy,0<θ<1

      f(θx+(1θ)y)<θf(x)+(1θ)f(y)

      函数 f(x) 是严格凸(strictly convex)的.

      如果 f 是凸的, 则 f 是凹(concave)的.

      凸函数如下图所示:

      凸优化2

      2.1 凸函数的一阶条件

      如果一个函数f:RnR是可微的, 那么 f 是凸函数当且仅当D(f)是凸集, 并且对于任意的 x,yD(f) :

      f(y)>=f(x)+xf(x)T(yx)

      其中 f(x)+xf(x)T(yx) 称为 f 在点x处的一阶近似. 上述性质如下图所示:

      凸优化3

      2.2 凸函数的二阶条件

      函数 f 是凸的当且仅当D(f)是凸集, 并且其Hessian矩阵是半正定的:

      2xf(x)0

      2.3 Jensen不等式

      凸函数的定义中有

      f(θx+(1θ)y)θf(x)+(1θ)f(y),0θ1

      上式可以扩展到多个点的情况:

      f(i=1kθixii=1kθif(xi)),i=1kθi=1,θi0

      也可以扩展到无限多个点或者某个区间的情况:

      f(p(x)xdx)p(x)f(x)dx,p(x)dx=1,p(x0)

      亦即

      f(E[x])E[f(x)]

      上式称为Jensen不等式

      2.4 Sublevel集合

      αsublevel 集合是凸集的一种, 对于一个函数 f:RnR , 以及一个实数 αR , αsublevel 集合的定义为

      xD(f):f(x)α

      可以很容易的证明上述集合是凸集, 对于 x,yD(f) 使得 f(x)α,f(y)α :

      f(θx+(1θ)y)θf(x)+(1θ)f(y)θα+(1θ)α=α

      2.5 凸函数例子

      指数函数: f:RR,f(x)=eαx
      负对数: f:RR,f(x)=logx
      仿射函数: f:RR,f(x)=bTx+c
      二次函数: f:RR,f(x)=12xTAx+bTx+c
      范式: f:RR,f(x)=x
      凸函数的非负加权和:

      f(x)=i=1kwifi(x)
      其中 f1,f2,...,fk 是凸函数

      3. 凸优化问题

      凸优化问题的形式如下:

      minimizef(x)

      subjecttoxC

      其中 f 是凸函数,C凸集, x 是待优化的变量, 我们通常可以把其写成

      minimizef(x)

      subjecttogi(x)0,i=1,...,m

      hi(x)=0,i=1,...,p

      其中 f gi是凸函数, hi 是仿射函数.

      gi 必须小于等于0, 这样得到的 x 的可行域(feasible region)才是凸的(因为gi(x)0定义了一个 αsublevel 集)

      3.1 凸问题中的全局最优

      凸问题的一个很好地特性是其局部最优解也是全局最优解.推导如下

      首先定义局部最优解: 当 x 是可行的(亦即位于可行域内), 而且存在R>0, 使得对于所有 xz2R 的位于可行点 z ,使得f(x)f(z).

      然后定义全局最优解: 如果 x 是可行的, 且对于其他所有的可行点z都有 f(x)f(z)

      凸问题中的全局最优解等同于局部最优解, 证明如下:

      x 是一个局部最优解, 但不是全局最优解, 所以存在一个可行的点y使得 f(x)>f(y) .根据局部最优解的定义, 没有一个可行点 z 满足xz2R,f(z)<f(x). 但是, 我们可以选择

      z=θy+(1θ)x,θ=R2xy2

      那么

      xz2=x=(R2xy2y+(1R2xy2)x)2

      =R2xy2(xy)2

      =R/2R

      另外, 因为 f 是凸函数, 所以

      f(z)=f(θy+(1θ)x)θf(y)+(1θ)f(x)<f(x)

      因为可行域是凸集, x , y都是可行的, 所以 z=θy+(1θ)x 也是可行的, 且 xz2<R,f(z)<f(x) , 假设不成立,所以 x 是全局最优解.

      3.2 凸问题的例子

      线性规划(LP, Linear Programming):

      minimizecTx+d

      subjecttoGxh

      Ax=b

      二次规划(QP, Quadratic Programming):

      minimize12xTPx+cTx+d

      subjecttoGxh

      Ax=b

      二次限制的二次优化(QCQP, quadratically constrained QP):

      minimize12xTPx+cTx+d

      subjectto12xTQix+rTix+si0,i=1,...,m

      Ax=b

      半定规划(Semidefinite Programming):

      minimizetr(CX)

      subjecttotr(AiX)=bi,i=1,...,p

      X0

      参考文献:

      [1]. Zico Kolter, Honglak Lee. Convex Optimization Overview.

      [2]. Stephen Boyd, Lieven Vandenberghe. Convex Optimization.

      声明:

      本文转载自凸优化(Convex Optimization)浅析——博客园kemaswill.对原作者的付出表示感谢.版权归原作者所有.

非常经典,我们教材就用的这个!该版本非常清晰,强烈推荐! Preface xi 1 Introduction 1 1.1 Mathematical optimization . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Least-squares and linear programming . . . . . . . . . . . . . . . . . . 4 1.3 Convex optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Nonlinear optimization . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 I Theory 19 2 Convex sets 21 2.1 Affine and convex sets . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Some important examples . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3 Operations that preserve convexity . . . . . . . . . . . . . . . . . . . . 35 2.4 Generalized inequalities . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5 Separating and supporting hyperplanes . . . . . . . . . . . . . . . . . . 46 2.6 Dual cones and generalized inequalities . . . . . . . . . . . . . . . . . . 51 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3 Convex functions 67 3.1 Basic properties and examples . . . . . . . . . . . . . . . . . . . . . . 67 3.2 Operations that preserve convexity . . . . . . . . . . . . . . . . . . . . 79 3.3 The conjugate function . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.4 Quasiconvex functions . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.5 Log-concave and log-convex functions . . . . . . . . . . . . . . . . . . 104 3.6 Convexity with respect to generalized inequalities . . . . . . . . . . . . 108 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 viii Contents 4 Convex optimization problems 127 4.1 Optimization problems . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2 Convex optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 4.3 Linear optimization problems . . . . . . . . . . . . . . . . . . . . . . . 146 4.4 Quadratic optimization problems . . . . . . . . . . . . . . . . . . . . . 152 4.5 Geometric programming . . . . . . . . . . . . . . . . . . . . . . . . . . 160 4.6 Generalized inequality constraints . . . . . . . . . . . . . . . . . . . . . 167 4.7 Vector optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 5 Duality 215 5.1 The Lagrange dual function . . . . . . . . . . . . . . . . . . . . . . . . 215 5.2 The Lagrange dual problem . . . . . . . . . . . . . . . . . . . . . . . . 223 5.3 Geometric interpretation . . . . . . . . . . . . . . . . . . . . . . . . . 232 5.4 Saddle-point interpretation . . . . . . . . . . . . . . . . . . . . . . . . 237 5.5 Optimality conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 5.6 Perturbation and sensitivity analysis . . . . . . . . . . . . . . . . . . . 249 5.7 Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 5.8 Theorems of alternatives . . . . . . . . . . . . . . . . . . . . . . . . . 258 5.9 Generalized inequalities . . . . . . . . . . . . . . . . . . . . . . . . . . 264 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 II Applications 289 6 Approximation and fitting 291 6.1 Norm approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 6.2 Least-norm problems . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 6.3 Regularized approximation . . . . . . . . . . . . . . . . . . . . . . . . 305 6.4 Robust approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 6.5 Function fitting and interpolation . . . . . . . . . . . . . . . . . . . . . 324 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 7 Statistical estimation 351 7.1 Parametric distribution estimation . . . . . . . . . . . . . . . . . . . . 351 7.2 Nonparametric distribution estimation . . . . . . . . . . . . . . . . . . 359 7.3 Optimal detector design and hypothesis testing . . . . . . . . . . . . . 364 7.4 Chebyshev and Chernoff bounds . . . . . . . . . . . . . . . . . . . . . 374 7.5 Experiment design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 Contents ix 8 Geometric problems 397 8.1 Projection on a set . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 8.2 Distance between sets . . . . . . . . . . . . . . . . . . . . . . . . . . . 402 8.3 Euclidean distance and angle problems . . . . . . . . . . . . . . . . . . 405 8.4 Extremal volume ellipsoids . . . . . . . . . . . . . . . . . . . . . . . . 410 8.5 Centering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 8.6 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 8.7 Placement and location . . . . . . . . . . . . . . . . . . . . . . . . . . 432 8.8 Floor planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 III Algorithms 455 9 Unconstrained minimization 457 9.1 Unconstrained minimization problems . . . . . . . . . . . . . . . . . . 457 9.2 Descent methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 9.3 Gradient descent method . . . . . . . . . . . . . . . . . . . . . . . . . 466 9.4 Steepest descent method . . . . . . . . . . . . . . . . . . . . . . . . . 475 9.5 Newton’s method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 9.6 Self-concordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496 9.7 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 10 Equality constrained minimization 521 10.1 Equality constrained minimization problems . . . . . . . . . . . . . . . 521 10.2 Newton’s method with equality constraints . . . . . . . . . . . . . . . . 525 10.3 Infeasible start Newton method . . . . . . . . . . . . . . . . . . . . . . 531 10.4 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 11 Interior-point methods 561 11.1 Inequality constrained minimization problems . . . . . . . . . . . . . . 561 11.2 Logarithmic barrier function and central path . . . . . . . . . . . . . . 562 11.3 The barrier method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568 11.4 Feasibility and phase I methods . . . . . . . . . . . . . . . . . . . . . . 579 11.5 Complexity analysis via self-concordance . . . . . . . . . . . . . . . . . 585 11.6 Problems with generalized inequalities . . . . . . . . . . . . . . . . . . 596 11.7 Primal-dual interior-point methods . . . . . . . . . . . . . . . . . . . . 609 11.8 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623 x Contents Appendices 631 A Mathematical background 633 A.1 Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633 A.2 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 A.3 Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 A.4 Derivatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640 A.5 Linear algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652 B Problems involving two quadratic functions 653 B.1 Single constraint quadratic optimization . . . . . . . . . . . . . . . . . 653 B.2 The S-procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 B.3 The field of values of two symmetric matrices . . . . . . . . . . . . . . 656 B.4 Proofs of the strong duality results . . . . . . . . . . . . . . . . . . . . 657 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659 C Numerical linear algebra background 661 C.1 Matrix structure and algorithm complexity . . . . . . . . . . . . . . . . 661 C.2 Solving linear equations with factored matrices . . . . . . . . . . . . . . 664 C.3 LU, Cholesky, and LDLT factorization . . . . . . . . . . . . . . . . . . 668 C.4 Block elimination and Schur complements . . . . . . . . . . . . . . . . 672 C.5 Solving underdetermined linear equations . . . . . . . . . . . . . . . . . 681 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684 References 685 Notation 697 Index 701
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值