优化方法总结

最新推荐文章于 2024-03-27 15:52:49 发布

Ensheng Shi

最新推荐文章于 2024-03-27 15:52:49 发布

阅读量952

点赞数 1

分类专栏：随笔文章标签：优化方法

本文链接：https://blog.csdn.net/qq_36097393/article/details/103148393

版权

随笔专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

1. 优化方法研究的主要问题
2 . 优化问题的最优性条件
2. 梯度下降法的一般框架
4. 解决优化问题的一般框架

1. 优化方法研究的主要问题

优化方法研究的主要问题在于得到一个模型的最优解，而机器学习关注的如何建立一个模型能够很好地解决实际问题，而其中模型的求解便依赖于优化方法。解决优化问题分为解析解法和数值解法，我们主要focus在数值解法。

2 . 优化问题的最优性条件

在设计一些算法时，最核心的指导思想便是最最优性条件。

无约束问题尽可能的达到驻点，在根据其他条件判断是否达到极值点。
约束优化问题
- 要么通过拉格朗日乘子法转为无约束，达到满足规范条件的KKT点
- 如果很难满足，就转为一系列无约束或者满足线性约束的优化问题，希望得到满足约束的KKT点。
- 最后实在不可以，还可以通过引入惩罚，放松约束，转化为一系列无约束，达到满足约束的驻点上。
  总之，无约束优化和有约束优化在设计迭代算法时，都是朝着满足最优性条件的方向设计的。

无约束优化问题的最优性条件

一阶必要条件 – 最优解的一阶梯度为0

如果 $x^*$ 是最优解，则梯度 $\nabla f(x^*) = 0$

二阶充分条件 – 一阶梯度为零，海森阵正定，则为最优值

当 $\nabla f(x^*) = 0$ ， $\nabla ^2 f(x^*_0)$ 正定,则 $x^*$ 为最优值点。

二阶必要条件 – 最优解的一阶梯度为0，海森阵半正定

$若x^*$ 为最优值点，则 $\nabla f(x^*) = 0$ ， $\nabla ^2 f(x^*_0)$ 半正定。

有约束优化问题的最优性条件

一阶必要条件–KKT条件—满足规范性约束的优化问题，最优解一定是KKT点

定理(kuHn - Tucker 定理)设x是约束优化问题的局部极小解，f(x)在x处可微，当约束规范条件 $S F D (x *, D) = L F D (x *, D)$ 成立时，存在实数 $\lambda_i^* (i =1,2,\cdots,m) \quad$ S.t.
$\nabla f(x*) -\sum\limits_{i=1}^m \lambda_i^* \nabla c_i(x^*) = 0$ $\lambda_i^* \nabla c_i(x^*) = 0,\quad \lambda_i^* \geq 0, i\in I^*$

互补松弛条件 $\lambda_i^* \nabla c_i(x^*) = 0$ 是为了让拉格朗日乘子法成立，对于 $\lambda$ 的非负性要求是在farkas引理里引入的。\
证明的思路为：
farkas lemma：
方程
$\left\{ \begin{aligned} &Ax \leq 0\\ & c^Tx \geq 0 \end{aligned} \right.$
方程
$\left\{ \begin{aligned} &A^Ty \leq c\\ &y > 0 \end{aligned} \right.$
上述两个方程iif一个有解。
约束规范条件 $S F D (x *, D) = L F D (x *, D)$ 可得

$\nabla f(x_*)^T d \geq 0 \quad \forall{d} \in LFD(x^*,D)$

根据LFD(x*,D)定义可以得到方程组：
$\left\{ \begin{array}{l} \nabla c_i(x^*)^T d = 0 \quad i \in E\\ \nabla c_i(x^*)^T d = 0 \quad i \in I^*\\ \nabla f(x^*)^Td < 0 \end{array} \right.\\$
无解，也就是
$\left\{ \begin{array}{l} Ad \leq 0\\ \nabla f(x^*)^Td > 0 \end{array} \right.$
$[\nabla c_i(x^*)^T,-\nabla c_i(x^*)^T, \quad i \in E \quad \nabla -c_i(x^*)^T \quad i \in I*]$
无解，那么
根据farkas lemma,
$\left\{ \begin{aligned} &A^Ty \leq f(x^*)\\ &y > 0 \end{aligned} \right.$
有解，其中 $(\mu_{*-T},\mu_{*+T}, \omega_{*-T})^T$ 也就是部分 $\lambda$ ,加上互补松弛条件刚好使得拉格朗日乘子法的梯度等于零。
构成了一阶必要条件。\

二阶充分条件，达到KKT点，拉格朗日函数的海森阵正定。

（1）当x为KKT点
（2）对于 $\forall d \in M = \{d \in R_n \ \ |\ \ d^T \nabla c_i(x^*) =0, i\in E \cup I^*\}$ 都有 $d^T \nabla^2_x L(x^*,\lambda^*)d > 0$ 则x*为严格局部最优解。

2. 梯度下降法的一般框架

迭代算法与梯度下降算法

数值解法中最常用的是迭代算法，
迭代算法： 给定初始点x0，一次产生点列 $x_1,x_2...x_k,...记为{x_k}$ 使得某个 $x_k$ 恰好是问题的一个最优解，或者该点列 ${x_k}$ 收敛到问题的一个最优解 $x^*$ ,这就是迭代法。
梯度下降法 利用梯度信息，使得每次迭代，函数的值总在下降的算法叫做梯度下降算法