最优化方法

Air浩瀚

已于 2023-06-06 23:32:33 修改

阅读量765

点赞数

分类专栏：数据科学文章标签：算法机器学习大数据

于 2023-04-26 17:57:06 首次发布

本文链接：https://blog.csdn.net/Ryansior/article/details/130391569

版权

数据科学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

最优化方法

最优化方法

不带约束的最优化问题：一般表示为：
$\sup\{ \, f(x):\,x\in A \, \}$
其中 $f (x)$ 是定义在度量空间 $X$ 上的实值函数， $f:\,(\bold{X},\,\rho)\mapsto \bold{R}$ ，称为目标函数； $A\subseteq X$ ，是一组控制集。我们要求解在 $A$ 上是否存在 $x^*$ 使得 $f(x^*)$ 最大，解的集合记作 ${\arg\max \{\, f(x):\,x\in A \,\}}$ 。

问题：

最优化问题是否有解？
有解的最优化问题，是否有唯一解？
有解的最优化问题，如何求解？
可行集 $A$ 的变化如何影响最大值和解集？

Weierstrass 定理

紧集 compact set：任何一个序列都存在收敛的子序列。在欧几里得空间中，紧集就是有界闭集。

Weierstrass 定理：若函数 $f:\,(\bold{X},\,\rho)\mapsto \bold{R}$ 是连续的，并且 $A\subseteq X$ 是非空紧集，则存在 $x^* \in A$ 使得 $f(x^*)=\sup\{ \, f(x):\,x\in A \, \}$ 。

注意：

Weierstrass 是充分条件，并不意味着若 $A$ 中存在最优解，则一定要满足这些条件
由于欧几里得空间中，紧集就是有界闭集，因此 Weierstrass 定理也可以表述为，一个定义在有界闭集 $\bold{R}^n$ 上的连续函数一定能在定义域上取到最大值。

证明：

令 $m=\sup\{ \, f(x):\,x\in A \, \}$ 。

当 $m\lt \infty$ 时，存在序列 $\{x_n\}\subseteq A$ 使得 $\lim\limits_{n\to\infty}f(x_n)=m$ ；由于 $A$ 是紧集，则存在 ${x_n\}$ 的某个子序列收敛到 $x\in A$ ，假设这个子序列就是 ${x_n\}$ 本身。那么：

$\lim\limits_{n\to\infty}f(x_n)=f(x)=m$

即 $f$ 在 $x\in A$ 处取得最大值。

若 $m=\infty$ ，则同样地存在序列 $\{x_n\}\subseteq A$ 使得 $\lim\limits_{n\to\infty}f(x_n)=f(x)=\infty$ ，但 $f(x)\lt \infty$ ，因此矛盾。

解的唯一性

凸集 convex set：集合内任意两点连线上的点都是集合内的点，即 $\forall\,x,\,y,\in A$ ， $\forall \alpha \in [0,\,1]$ ，有 $\alpha x+(1-\alpha)y\in A$ ，则 $A$ 为凸集。

concave：函数 $f:\,A \mapsto R$ ，其中 $A$ 为凸集，若对于 $\forall\,x,\,y,\in A$ ， $\forall \alpha \in[0,\,1]$ ，有：
$f(\alpha x+(1-\alpha) y) \geq \alpha f(x)+(1-\alpha)f(y)$
则称 $f$ 为 concave funtion。即 $f$ 在两点之间的凸组合的取值大于等于在两点取值的凸组合。

Hession 矩阵：Hessian 矩阵是一个 $\times n$ 的矩阵，其中第 $i$ 行第 $j$ 列的元素是 $ \frac{\partial^2 f}{\partial x_i \partial x_j}$。

如果一个函数 $f (x)$ 在 $x$ 的某个点 $x^*$ 处具有二阶连续偏导数，且其 Hessian 矩阵 $\mathbf{H}$ 在该点是负定矩阵，则 $f (x)$ 在 $x^*$ 处是 concave function ；（这是必要不充分条件）
如果 $f (x)$ 是一元函数，则只需 $f (x)$ 的二阶导小于零；（这也是必要不充分条件）

strictly concave ：对于一个 concave function $f$ ，若对于 $x\not =y$ ，上述不等式严格成立，即：
$f(\alpha x+(1-\alpha) y) \gt \alpha f(x)+(1-\alpha)f(y)$
则称 $f$ 为 strictly concave funtion；

拟凹性 quasi-concave：对于定义在凸集 $A$ 上的函数 $f:\,A\mapsto R$ ，若对于 $\forall c$ ， $f$ ，满足：
$\{\, x\in A:\,f(x)\geq c \,\} \subseteq A$
的子集是一个凸集。

strictly quasi-concave：对于一个 quasi-concave function $f$ ，若对于 $\forall \alpha \in (0,\,1)$ ，满足：
$\begin{align} f(x)\geq&\, c,\,f(y) \geq c \,\,and\,\,x\not=y \\ \Rightarrow&\,f(\alpha x+(1-\alpha)y)\gt c \end{align}$
则称 $f$ 为 strictly quasi-concave；

所有 concave function 都是拟凹的，但是拟凹函数不一定是 concave function

拟凹函数的一个重要特性是，它的局部最大值也是全局最大值。因此有下面的定理：

Th： $f$ 是定义在凸集 $A$ 上的函数 $f:\,A\mapsto \bold{R}$ ，且 $f$ 是拟凹的，若集合：
${\arg\max \{\, f(x):\,x\in A \,\}}$
非空，则该集合一定是 $A$ 的凸子集。当该集合非空且 $f$ 是 strictly quasi-concave，则解唯一（即集合中只有一个元素）。

证明：

① 首先证明凸性。假设集合 ${\arg\max \{\, f(x):\,x\in A \,\}}$ 非空，令 $m=\sup\{ \, f(x):\,x\in A \, \}$ 。根据定义，对于任意 $x,\,y\,\in\,{\arg\max \{\, f(x):\,x\in A \,\}}$ ，都有 $f (x) = f (y) = m$ 。而 $f$ 是 quasi-concave 的，则 $\forall \alpha\in[0,\,1]$ ， $f(\alpha x+(1-\alpha)y)\geq m$ 。又因为 $m$ 是全局最大值，因此必然有 $f(\alpha x+(1-\alpha)y)= m$ ，说明 $\alpha x+(1-\alpha)y \in {\arg\max \{\, f(x):\,x\in A \,\}}$ 。由此可知，集合 ${\arg\max \{\, f(x):\,x\in A \,\}}$ 内的任意两点的凸组合仍在集合内，因此该集合是凸集。

② 再证明解的唯一性。当 $f$ 是 strictly quasi-concave 时，若存在 $x,\,y\in{\arg\max \{\, f(x):\,x\in A \,\}}$ 且 $x\not =y$ ，则必有 $f(\alpha x+(1-\alpha)y)\gt m$ ，与 $m$ 为全局最大值矛盾，因此此时 ${\arg\max \{\, f(x):\,x\in A \,\}}$ 中只有一个元素，即解唯一。

Kuhn-Tuker 定理

带约束的优化问题：考虑在欧几里得空间上，由有限个不等式约束的最优解问题：
$V(b)=\max\limits_{s.t.\,g_i(x)\leq b_i,\,i=1,\,\cdots,\,m} f(x),\,\,x\in \bold{R}^n$
其中 $f$ 是可行集 $A$ 上的函数 $f:\,\bold{R}^n\mapsto \bold{R}$ ， $g$ 为函数 $g:\,\bold{R}^n\mapsto \bold{R}^m$ ，二者均为连续函数。

（ $s . t .$ 的意思是 subject to）

Kuhn-Tucker 定理：假设 $f$ 和 $g_i$ ( $i=1,\,\cdots,\,m$ ) 均为 concave functions，并且可行集：
$\triangleq \{\, x\in \bold{R}^n:\,g(x)\leq b \,\}$
非空，则存在非负向量 $\lambda \in \bold{R}^m_+$ 使得以上带约束的优化问题的解 $x^*\in A$ 也一定是以下不带约束条件的优化问题的解：
$V(b)=\max\limits_{x\in \bold{R}^n}f(x)+\lambda^T[b-g(x)]$
其中 $\lambda_i(b_i-g_i(x^*))=0$ ( $i=1,\,\cdots,\,m$ ) 。特别地，当 $f$ 和 $g_i$ ( $i=1,\,\cdots,\,m$ ) 均为连续可微的，则必有：
$\left\{ \begin{array}{ll} f'(x^*)-\lambda^Tg'(x^*)=0 \\ \lambda_i(b_i-g_i(x^*))=0 & i=1,\,\cdots,\,m \end{array} \right.$
（这里有 $m + 1$ 个方程，我们有 $m + 1$ 个未知数： $x^*$ 和 $\lambda_i$ ( $i=1,\,\cdots,\,m$ ) ）

证明：

① 用反证法证明充分性：若不带约束条件的问题有解，则这个解一定也是带有约束条件问题的解。假设对于不带约束条件的问题的解 $x^*$ ，存在 $x'\in A$ ，使得满足 $g(x')\leq b$ 且 $f(x')\gt f(x^*)$ ，则对于上面解出来的 $\lambda$ ，有：
$$
\begin{align}
f(x’)+\lambda^T[b-g(x’)]\geq &, f(x’)\
\gt &, f(x^) =f(x^)+\lambda ^T[b-g(x*)]

\end{align}
$KaTeX parse error: Can't use function '$' in math mode at position 13: 第一个大于等于是因为 $̲g(x')\leq b$ ，并…$
f(x’)+\lambda^T[b-g(x’)]\gt f(x^) =f(x^)+\lambda ^T[b-g(x*)]
$$
② 证明必要性：若带有约束条件问题有解，则这个解一定也是不带有约束条件问题的解。分为 (1) (2) (3) 三步：

(1) 首先证明，对于 concave function $f$ 和 $- g$ ，带约束条件的目标函数 $V:\,\bold{R}^m \mapsto \bold{R}$ 一定是 concave function 并且是单调递增的。单调递增好理解，如果 $b$ 越大，则 $f$ 可以取到的定义域范围也就越大，所以最大值肯定不会递减。concave 性需要证明：

$V(\alpha b+(1-\alpha)b')\geq \alpha V(b)+(1-\alpha)V(b')$
我们令 $x^*$ 是 $V (b)$ 的解， $x^{**}$ 是 $V (b^{'})$ 的解，则有：
$\left\{ \begin{array}{l} g(x^*) \leq b \\ g(x^{**}) \leq b' \end{array} \right. \Rightarrow g(\alpha x^* + (1-\alpha)x^{**}) \leq \alpha g(x^*) + (1-\alpha)g(x^{**})\leq\alpha b + (1-\alpha)b'$

第一个小于等于是因为我们假设 $- g$ 是 concave 的，第二个小于等于是因为 $g(x)\leq b$ ；

这里说明 $\alpha x^* +(1-\alpha)x^{**}$ 也是满足约束条件 $g(\alpha x^* + (1-\alpha)x^{**}) \leq \alpha b + (1-\alpha)b'$ 的

而有：
$V(\alpha b+(1-\alpha)b')\geq f(\alpha x^{*} + (1-\alpha)x^{**}) \geq \alpha f(x^*)+(1-\alpha)f(x^{**})=\alpha V(b)+(1-\alpha)V(b')$

第一个大于等于是因为我们 $V (b)$ 的含义是满足约束条件的最大值，而 $\alpha x^* +(1-\alpha)x^{**}$ 满足约束条件，因此不会比 $V$ 大；
第二个大于等于是因为我们假设 $f$ 是 concave function；
第三个等于是我们假设 $x^*$ 是 $V (b)$ 的解， $x^{**}$ 是 $V (b^{'})$ 的解；

由此我们得到了 $V (b)$ 是 concave 的；（其实我觉得从直观上理解，因为 $- g$ 是 concave 的，所以 $b$ 增大使得 $x$ 范围增大的速率逐渐减小；并且 $f$ 也是 concave 的，所以 $x$ 范围增大使得 $f$ 最大值增大的速率变小）

(2) 我们定义一个集合：
$\Lambda \triangleq \{\, (y,\,z)\in \bold{R}^m\times \bold{R}:\,V(y)\geq z \,\}$
由于 $V (b)$ 是凸函数，并且我们假设原带约束条件的问题有解，因此 $\Lambda$ 是非空凸集，且 $(b,\,V(b))$ 是在 $\Lambda$ 边界上的点，即对于 $\forall \varepsilon \gt 0$ ，有 $(b,\,V(b)-\varepsilon)\in \Lambda$ 且 $(b,\,V(b)+\varepsilon)\not\in \Lambda$ 。

首先要来学习一个定理：

Minkowski’s supporting hyperplane theorem：对于一个非空的凸集 $S\subseteq \bold{R}^n$ ， $x_0$ 是 $S$ 边界上的点，则存在一个支撑超平面，使得 $S$ 中所有点都在该超平面的一侧，而 $x_0$ 在超平面上。或者表述成，存在非零向量 $\in \bold{R}^n$ ，使得对于 $S$ 中的任意一点 $x$ ，都有：
$p^Tx\leq p^T x_0$
（这里取 $p^Tx\geq p^T x_0$ 也可以，这里 $p$ 就是平面的法向量）

因此，由于 $(b,\,V(b))$ 是在 $\Lambda$ 边界上的点，我们可以找到一个非零向量 $(-\lambda,\,\mu)\in \bold{R}^m\times \bold{R}$ ，使得：
$\mu z-\lambda^Ty\leq \mu V(b)-\lambda^Tb\quad\forall (y,\,z)\in \Lambda$
我们证明 (2.1) $\lambda \geq 0$ ；(2.2) $\mu \gt 0$

(2.1) 反证法：若存在某个 $\lambda_i\lt 0$ （ $i=1,\,2,\,\cdots,\,m$ ），我们令其余 $y_j=b_j$ （ $j\not=i$ ），则令 $y_i$ 足够大（例如到 $+\infty$ ），则显然 $(y,\,V(b))\in\Lambda$ ，但此时有：
$y_i\gt b_i \Rightarrow \mu V(b)-\lambda^Ty\gt \mu V(b)-\lambda^Tb$
与上边的不等式矛盾，因此所有 $\lambda_i\geq 0$ ，即 $\lambda \geq 0$ ；

(2.2) 前面提到 $(b,\,V(b)-\varepsilon)\in \Lambda$ ，代入上面的不等式，得到：
$\mu(V(b)-\varepsilon)-\lambda^Tb\leq \mu V(b)-\lambda^Tb \Rightarrow \mu \geq 0$
如果 $\mu=0$ 的话，上面的不等式就变成了 $\lambda^T y\geq \lambda^Tb$ 对于任意 $y\in \bold{R}^m$ 都成立，此时只能有 $\lambda=0$ ，而与凸集支撑定理矛盾（我们说 $(-\lambda,\,\mu)$ 为非零向量）

现在有了 $\lambda \geq 0$ 以及 $\mu \gt 0$ ，我们可以归一化，两边除以 $\mu$ （其实就是取 $\mu=1$ 的那个法向量），得到：
$z-\lambda^Ty\leq V(b)-\lambda^Tb\quad\forall (y,\,z)\in \Lambda$
(3) 我们令带约束条件的问题的解为 $x^*$ ，则 $g(x^*)\leq b$ 且 $V(b)=f(x^*)$ ，则上面的不等式变成：
$z-\lambda^Ty\leq V(b)-\lambda^Tb\leq f(x^*)-\lambda^T g(x^*)$
并且对于 $\forall x\in \bold{R}^n$ ，都有 $f(x)\leq V(g(x))$ ，所以 $(g(x),\,f(x))\in \Lambda$

（这个有点怪，你可以这样理解，这里 $b = g (x)$ ，因此 $x$ 是满足约束条件的，根据 $V (b)$ 的定义，肯定是 $f(x)\leq V(b)=V(g(x))$ ）

带入不等式可以得到：
$$
\begin{align}
f(x)-\lambda^T g(x)\leq&, f(x^*)-\lambdaT g(x^) \
\Rightarrow f(x)+\lambda^T[b-g(x)]\leq&, f(x^*)+\lambdaT[b-g(x^)]

\end{align}
$$
即可以看到， $x^*$ 是问题 $\arg\max\limits_{x\in R^n}f(x)+\lambda^T[b-g(x)]$ 的解，因此一阶条件需要满足（就是对这个式子求一阶导，将 $x^*$ 代入，要等于 0）

同时有 $(g(x^*),\,f(x^*))=(g(x^*),\,V(b))\in \Lambda$ ，代入前边不等式 $z-\lambda^Ty\leq V(b)-\lambda^Tb\quad\forall (y,\,z)\in \Lambda$ 得到：
$\lambda^Tg(x^*)\geq \lambda^T b$
即对于 $i=1,\,2,\,\cdots,\,m$ ，都有 $\lambda_i g_i(x^*)\geq \lambda_i b$ ；又因为约束条件 $g(x^*)\leq b$ ，且 $\lambda_i \geq 0$ ，因此 $\lambda_i(b_i-g_i(x^*))=0$ ，这就得到了剩下的 $m$ 个方程，得证。

Envelope 定理

（中文的应该叫”包络定理“）

Envelope 定理：令 $V(\theta)=\max\limits_{x\in \bold{R}^m}f(x,\,\theta),\,\,\theta\in\bold{R}^m$ ，假设 $f:\,\bold{R}^n\times \bold{R}^m\mapsto \bold{R}$ 连续可微，并且在 $x^*=x^*(\theta)$ 处取得最大值。那么，在最大值处，必有：
$\frac{\partial V(\theta)}{\partial \theta_i}=\frac{\partial f(x^*,\,\theta)}{\partial \theta_i}\,,\quad i=1,\,\cdots,\,m$
证明：由于 $V(\theta)=f(x^*(\theta),\,\theta)$ ，我们可以得到：
$\frac{\partial V(\theta)}{\partial \theta_i}=\frac{\partial f(x^*,\,\theta)}{\partial \theta_i}+\sum\limits_{j=1}^n\frac{\partial f(x^*,\,\theta)}{\partial x_j}\frac{\partial x_j^*(\theta)}{\partial \theta_i}$
但是由 Kunh-Tucker 定理可知，在满足一阶条件的情况下， $\frac{\partial f(x^*,\,\theta)}{\partial x_j}=0,\,\,j=1,\,\cdots,\,n$ ，因此只剩下：
$\frac{\partial V(\theta)}{\partial \theta_i}=\frac{\partial f(x^*,\,\theta)}{\partial \theta_i}\,,\quad i=1,\,\cdots,\,m$
Envelope theorem 指出，当外部因素（体现为外生参数 $\theta$ ）发生微小变化时，目标函数的变化量等于对应的效用函数的边际变化所导致的变化量。