最优化理论与方法-第十讲-对偶理论的基本性质和割平面法

取个名字真难呐

已于 2024-07-21 07:00:56 修改

阅读量548

点赞数 4

文章标签：平面算法机器学习矩阵人工智能线性代数

于 2024-07-20 19:12:26 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/140574904

版权

文章目录

1. 向量化拉格朗日对偶函数
2. 对偶问题是凹函数
3. 对偶问题转换
4. 外逼近法
- 4.1 步骤
- 4.2 注意事项

1. 向量化拉格朗日对偶函数

$\begin{equation}\begin{aligned} &(D)\; \;\max\; d(\lambda,\mu)\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ &\;\;d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\sum_{i=1}^m\lambda_ig_i(x)+\sum_{i=1}^l\mu_ih_i(x)\}\\ \end{aligned}\end{equation}$

为了方便向量的表达方式，我们记：
$\begin{equation}\begin{aligned} &\; \;g(x)=(g_1(x),g_2(x),\cdots,g_m(x))^T\\ &\; \;h(x)=(h_1(x),h_2(x),\cdots,h_l(x))^T\\ &\; \;\lambda=(\lambda_1,\lambda_2,\cdots,\lambda_m)\\ &\; \;\mu=(\mu_1,\mu_2,\cdots,\mu_l)\\ \end{aligned}\end{equation}$
整理上式可得：
$\begin{equation}\begin{aligned} &(D)\; \;\max\; d(\lambda,\mu)\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ &\;\;d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\}\\ \end{aligned}\end{equation}$

2. 对偶问题是凹函数

对偶问题(D)是凸问题,对偶函数是凹函数
这里的凹函数图像如下：这个定义国内外相反，真有点坑，容易糊涂
需要证明对偶函数 $d(\lambda,\mu)$ 是凹函数
$\begin{equation} d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\} \end{equation}$
假设X为有限个值 $X=\{x_1,x_2,\cdots,x_n\}$ ,那么对偶函数,就是从N个函数中求最小值
$\begin{equation} d(\lambda,\mu)=\min\limits_{i=1,\cdots,n}\{f(x_i)+\lambda^Tg(x_i)+\mu^Th(x_i)\} \end{equation}$
对于每个函数，一旦 $x_i$ 确定后， $d(\lambda,\mu)$ 就只是一个关于 $\lambda,\mu$ 的线性函数，也就是分段最小值函数，详见下图：
由上图可得，对偶函数是凹函数,是凸问题。

3. 对偶问题转换

我们有如下对偶问题：
$\begin{equation}\begin{aligned} &(D)\; \;\max\; d(\lambda,\mu)\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ &\;\;d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\}\\ \end{aligned}\end{equation}$
定义 $\theta = d(\lambda,\mu)$
$\begin{equation}\begin{aligned} &(D)\; \;\max\; \theta\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ &\;\;\theta=d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\}\\ \end{aligned}\end{equation}$
因为最终求 $\theta$ 的最大值，所以可以缩放 $\theta=d(\lambda,\mu)\to \theta\le d(\lambda,\mu)$
$\begin{equation}\begin{aligned} &(D)\; \;\max\; \theta\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ &\;\;\theta\le d(\lambda,\mu)=\min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\}\\ \end{aligned}\end{equation}$
整理后可得：
$\begin{equation}\begin{aligned} &(D)\; \;\max\; \theta\\ &\;\;\theta\le \min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\}\\ &st.\;\;\lambda\ge 0\\ \end{aligned}\end{equation}$
如果最终存在一个 $\bar{\theta}$ 是上面的最大值，那么就是最优值
$\begin{equation} \bar{\theta}=v(D)\end{equation}$
假设X有有限个解 $X=\{x_1,x_2,\cdots,x_n\}$ ，那么存在n个不等式,可以用scipy的库进行线性规划问题的求解，假设X有无穷多解，那么代表的就是无穷多个线性不等式。
$\begin{equation}\begin{aligned} &\;\;\theta\le \min\limits_{i=1,\cdots,n}\{f(x_i)+\lambda^Tg(x_i)+\mu^Th(x_i)\}\\ &st.\;\;\lambda\ge 0\\ \end{aligned}\end{equation}$
我们假设 $X_0=\{x_1,x_3\}$ ，现在只有两个约束，那么这个得到的最大值肯定大于N个约束的的最大值 $\bar{\theta}$ ,因为约束越多，其定义域的范围越小，那么值域就越小，最大值也就越小
$\begin{equation}\begin{aligned} \theta_0\ge \bar{\theta} \end{aligned}\end{equation}$
我们记最优解为 $(\lambda_0,\mu_0,\theta_0)$ ,现在求 $d(\lambda_0,\mu_0)$
$\begin{equation} d(\lambda_0,\mu_0)=\min\limits_{x\in X}\{f(x)+\lambda_0^Tg(x)+\mu_0^Th(x)\} \end{equation}$
假设存在一个 $x_0$ 满足如下条件：
$\begin{equation} g(x_0)\le 0,h(x_0)=0,\lambda_0^Tg(x_0)=0 \end{equation}$
反正上面都为0，等式左右相加不影响：
$\begin{equation} f(x_0)=f(x_0)+\lambda_0^Tg(x_0)+\mu_0^Th(x_0) \end{equation}$
我们定义 $x_0$ 为 $d(\lambda_0,\mu_0)$ 最优解，那么可得：
$\begin{equation} d(x_0,\lambda_0,\mu_0)=f(x_0)+\lambda_0^Tg(x_0)+\mu_0^Th(x_0)=f(x_0) \end{equation}$
则强对偶定理成立
若 $d(\lambda_0,\mu_0)=\theta_0$ ，可得：
$\begin{equation} d(\lambda_0,\mu_0)=v(D) \end{equation}$

4. 外逼近法

4.1 步骤

step 0: 选取X的非空子集 $X^1$ ,其中 $X^1$ 包含有限个元素，令 $k = 1$
step 1: 求解线性规划问题：
$\begin{equation}\begin{aligned} &(D)\; \;\max\; \theta\\ &\;\;\theta\le \min\limits_{x\in X}\{f(x)+\lambda^Tg(x)+\mu^Th(x)\},\forall x\in X^k\\ &st.\;\;\lambda\ge 0\\ & 记最优解为(\lambda^k,\mu^k,\theta^k) \end{aligned}\end{equation}$
step 2: 求解相应的子问题：
$\begin{equation} \min\{f(x)+(\lambda^k)^Tg(x)+(\mu^k)^Th(x)\big|x\in X\}； \end{equation}$
记其最优解为 $x^k$ ,最优值为 $d(\lambda^k,\mu^k)$
step 3: 若 $x^k$ 是原问题 $(P)$ 的可行解，且 $(\lambda^k)^Tg(x^k)=0$ ，则算法终止， $x^k$ 和 $(\lambda^k,\mu^k)$ 分别是原问题P和对偶问题D的最优解，且最优值相等，若
$\begin{equation} \theta^k=d(\lambda^k,\mu^k) \end{equation}$
则算法终止， $(\lambda^k,\mu^k)$ 即对偶问题的最优解，且最优值为 $\theta^k$
step 4: 令 $X^{k+1}=X^k\cup\{x^k\},k:= k+1$ ,转 step 1

4.2 注意事项

1. X的子集合点总需要包含一个原问题的可行解，这样能保证 $\theta$ 有一个上界,使得迭代更好收敛。
  $\begin{equation} \theta \le f(x)+\lambda^Tg(x)+\mu^Th(x)\le f(x) \end{equation}$
1. X包含无穷多个解，为了方便迭代，我们可以动态去掉 $X^k$ 中多余的解，加速迭代
1. 割平面法，通过不断加约束来不断地缩小定义域，近似的逼近最优解。就像切西瓜一样，不断地切，最后切成我们想要的形状。
在最优解附近具有不稳定性，我们通常通过加正则项的方法进行正则化
后续研究次梯度法和bound method