【求解变分不等式】

m0_58786865

已于 2024-01-10 16:14:35 修改

阅读量1.5k

点赞数 22

分类专栏：求解变分不等式凸优化文章标签：算法

于 2024-01-06 14:28:49 首次发布

本文链接：https://blog.csdn.net/m0_58786865/article/details/135413317

版权

求解变分不等式同时被 2 个专栏收录

3 篇文章

订阅专栏

凸优化

3 篇文章

订阅专栏

本文聚焦单调广义变分不等式（MGVI），介绍了多种凸优化问题，如l1正则化最小二乘、基追问题等。还阐述了迭代收缩阈值算法（ISTA）、快速迭代收缩阈值算法（FISTA）、广义外梯度法（GEM）等多种算法，包括其原理、步骤及收敛速度等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

求解变分不等式

介绍
$l_1$ 正则化最小二乘问题
基追问题
可分离两块凸优化模型
迭代收缩阈值算法（ISTA，Iterative Shrinkage-Thresholding Algorithm）
- ISTA
- 快速迭代收缩阈值算法(FISTA，Fast Iterative Shrinkage-Thresholding Algorithm）
广义外梯度法(GEM,Generalized Extragradient Method)
- 外梯度法(EM,Extragradient Method)
- GEM
邻近收缩算法（PCA，proximity and contraction algorithms)
交替方向乘子法（ADMM，alternating direction method of multipliers）
- ADMM
- 交替方向线性近似乘子法（AD-LPMM，linearized proximal）

介绍

设 $\theta:R^n → (-\infty,\infty]$ 为闭正常凸函数， $F:R^n → R^n$ 为向量
值和连续映射。广义变分不等式 $(G V I)$ [9,19]形式如下 $x^*\in R^n,\theta(x)-\theta(x^*)+(x-x^*)^TF(x^*)\ge 0,\forall x\in R^n.$
保留 $\infty -\infty=\infty$ 的算术运算。在本文中，我们关注 $F$ 是单调的情况，即 $-F(y))^T(x -y)\ge 0$ ，对于所有 $\in R^n$ 。在本文中，我们对 $MGVI(\theta, F)$ 做了以下额外的假设:
$(a)$ 单调算子 $F$ 是 $L i p sc hi t z$ 连续的,其中 $L i p sc hi t z$ 常数 $L > 0$ 。
$(b)$ $MGVI(\theta ,F)$ 的解集，表示为 $\Omega^*$ ，非空。

各种凸优化问题可以表述为 $MG V I s$ ，例如最小绝对收缩和选择算子(LASSO,least absolute shrinkage and selection operator/ $l_1$ 正则化最小二乘)问题、基追问题[7]、基追去噪问题[5]，和 $D an t z i g$ 选择器 [6]，等等。此外，单调广义变分不等式( $MG V I$ ，monotone generalized variational inequality)包含经典单调变分不等式 ( $M V I$ ,monotone variational inequality)。通过设置 $\theta = \delta _C$ ( $\delta _C$ 是 $C$ 的指标函数，如果是 $\in C$ ，则等于 $0$ ，否则等于 $\infty$ 。),其中 $\subseteq R^n$ 是一个非空闭凸集，则 $MG V I$ 就以下列形式简化为 $M V I$
$x^*\in C,(x-x^*)^TF(x^*)\ge 0,\forall x\in C.$
设 $f: R^n → (−∞, ∞]$ 为闭正常凸函数， $f$ 的邻近算子定义如下
$Prox_f:x \mapsto argmin\{f(y)+\frac{1}{2}\|x-y\|^2 : y \in R^n\}$

设 $R^n \rightarrow (-\infty, \infty]$ 为闭正常凸函数。那么接下来的三个条件是等价的:
$1. p = Prox_f (x).$
$\in \partial f(p).$
$3.$ 对于所有 $w\in R^n$ ，都有 $(x-p)^T(p-w) \ge f(p) - f(w).$

$l_1$ 正则化最小二乘问题

对线性逆问题：
$b = A x + w$ ,其中 $b\in R^m,A\in R^{m\times n}$ 已知, $w$ 为噪音，求解 $x$ 。

让噪声最小，最小二乘法求解：
$\widetilde{x}=\mathop{\arg\min}\limits_{x}\|Ax-b\|^2$
若 $m = n$ 且 $A$ 非奇异, $x=A^{-1}y$ 。但是很多情况下， $A$ 病态，用最小二乘法求解时，系统微小的扰动都会导致结果差别很大。为了求解病态线性系统的逆问题，可以使用 $l_2$ 正则化最小二乘（也叫Tikhonov regularization，Ridge regression）
$\widetilde{x}=\mathop{\arg\min}\limits_{x}\{\frac{1}{2}\|Ax-b\|^2+\lambda\|x\|_2\}$ ，
即 $\mathop{min}\limits_{x\in R^n}f(x):=\{\frac{1}{2}\|Ax-b\|^2+\lambda\|x\|_2\}$

而 $l_1$ 正则化最小二乘（Lasso，least absolute shrinkage and selection operator，最小绝对值收敛和选择算子）问题。
$\mathop{min}\limits_{x\in R^n}f(x):=\{\frac{1}{2}\|Ax-b\|^2+\lambda\|x\|_1\}$
对无约束问题 $minf(x)，x\in R^n$
梯度下降法 $x_k=x_{k-1}-t_{k-1}\nabla f(x_{k-1})$
梯度下降法对可微函数可直接求微分，对不可微函数引入了次梯度（subgradient），次微分（subdifferential）概念
投影算子（projection,Pc）
$Pc=Prox_{t_k\delta _C}$
$x_k=Pc(x_{k-1}-t_{k-1}\nabla f(x_{k-1}))$
近端线性 $x_k=\mathop{\arg\min}\limits_{x}\{f(x_{k-1})+<x-x_{k-1},\nabla f(x_{k-1})>+\frac{1}{2t_{k-1}}\|x-x_{k-1}\|^2\}$
$f(x_{k-1})+<x-x_{k-1},\nabla f(x_{k-1})>+\frac{1}{2t_{k-1}}\|x-x_{k-1}\|^2=\frac{1}{2t_{k-1}}\|x-(x_{k-1}-t_{k-1}\nabla f(x_{k-1}))\|^2+D$
D为常数
$x_k=\mathop{\arg\min}\limits_{x}\{\frac{1}{2t_k}\|x-(x_{k-1}-t_{k-1}\nabla f(x_{k-1}))\|^2\}$
对无约束问题 $minf(x)+g(x)，x\in R^n$
$x_{k+1}=\mathop{\arg\min}\limits_{x}\{f(x_k)+<x-x_k,\nabla f(x_k)>+\frac{1}{2t_k}\|x-x_k\|^2+g(x)\}$
$x_{k+1}=\mathop{\arg\min}\limits_{x}\{\frac{1}{2}\|x-(x_k-t_k\nabla f(x_k))\|^2+t_kg(x)\}$
即 $x_{k+1}=Prox_{t_kg}(x_k-t_k\nabla f(x_k))$

基追问题

$\mathop{min}\quad \|x\|_1 \\s.t. \quad Ax=b$
其中 $A\in R^{m\times n},b\in R^{n}$

可分离两块凸优化模型

$\mathop{min}\quad\theta_1(x)+\theta_2(x)\\ s.t. \quad Ax+By=c$
其中 $A\in R^{m\times n},B\in R^{m\times q},c\in R^m$ ，
$\theta_1:R^n\rightarrow(-\infty,\infty]$ 和 $\theta_2:R^q\rightarrow(-\infty,\infty]$ 为两个正常闭和凸函数

迭代收缩阈值算法（ISTA，Iterative Shrinkage-Thresholding Algorithm）

ISTA

取 $f(x)=\frac{1}{2}\|Ax-b\|^2,g(x)=\lambda \|x\|_1$
$\nabla f(x_k)=A^T(Ax-b),t_k=\frac{1}{L_k}$
得
$x_{k+1}=Prox_{\frac{1}{L_k}\lambda \|\|_1}(x_k-\frac{1}{L_k}A^T(Ax_k-b))$
$L$ 是 $\nabla f(x)$ 的 $L i p sc hi t z$ 常数, $L>\lambda_{max}(A^TA)$
由 $\Tau _{\lambda t_k}=Prox_{t_k\lambda\|\|_1}=Prox_{\lambda t_k}$ 得
$x_{k+1}=T_{\frac{\lambda}{L_k}}(x_k-\frac{1}{L_k}A^T(Ax_k-b))$
收缩阈值算子（Shrinkage-Thresholding operator ）
$\Tau _{\lambda}(x)=sgn(x)max(|x|-\lambda,0)=max(0, x -\lambda) + min(0, x +\lambda)$
$x_k$ 收敛速度 $O(\frac{1}{t})$

matlab核心代码

T = @(tau, x) max(0, x - tau) + min(0, x + tau);% 收缩阈值函数
x_new =  T(lambda/L0, x_old - (1/L0)*A'*(A*x_old-b));

FISTA改进：

快速迭代收缩阈值算法(FISTA，Fast Iterative Shrinkage-Thresholding Algorithm）

$step\quad 0:$
$y_1=x_0,t_1=1$
$step\quad k(k\ge1):$
$x_{k+1}=T_{\frac{\lambda}{L_k}}(y_k-\frac{1}{L_k}A^T(Ax_k-b))$
$t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}$
$y_{k+1}=x_k+(\frac{t_k-1}{t_{k+1}})(x_k-x_{k-1})$
$x_k$ 收敛速度 $O(\frac{1}{t^2})$

广义外梯度法(GEM,Generalized Extragradient Method)

外梯度法(EM,Extragradient Method)

广义外梯度法（Generalized Extragradient Method）
由外梯度法（EM,Extragradient Method）推广得到，其中EM采用投影算子（ $P c$ ,projection operator),适用于求解 $MVI（\theta,F,C）$ ;GEM采用邻近算子( $P ro x$ ,proximity operator)，适用于求解 $MGVI（\theta,F）$ ,其他步骤基本相同，都是预估校正算法

GEM

$l_1$ 正则化最小二乘问题，由KKT条件，易知
$\theta(x)=\lambda\|x\|_1,F(x)=A^T(Ax-b)$
$\beta^k\le\frac{\nu}{L},\nu\in(0,1),L$ 为 $F (x)$ 的 $L i p sc hi t z$ 常数
GEM是预估校正算法
预测： $\widetilde{x}_k=Prox_{\beta^k\theta}(x_k-\beta^kF(x_k))$
校正： $x_{k+1}=Prox_{\beta^k\theta}(x_k-\beta^kF(\widetilde{x}_k))$

邻近收缩算法（PCA，proximity and contraction algorithms)

收缩阈值算子（ $\Tau$ ），投影算子（ $P_C$ ）是特殊的邻近算子( $P ro x$ )
邻近算子具有收缩性质，也就是生成的序列 ${x_k\}$ 会收敛

邻近点算法（PPA，proximity point algorithms)

邻近梯度算法(PGA，proximity gradient algorithms)

使用邻近算子（ $P ro x$ )作为近似梯度
变分不等式
$\theta(\tilde{x}^k) -\theta(x^*) +(\tilde{x}^k - x^*)^T F(x^*) \ge 0$
单调
$(\tilde{x}^k - x^*)^T(F(\tilde{x}^k) -F(x^*))\ge 0$

$PGA_{a1}$

$F (x) = M x + q$
M半正定，不需要对称

$x^0 \in R^n$ ，并且 $\gamma \in (0,2),\alpha ^*_k\ge\frac{1}{\|I+\beta ^kM^T\|^2_2}$
预测器:选择 $\beta ^k>0$ ，且 $\widetilde{x}^k=Prox_{\beta ^k\theta}(x^k-\beta ^kF(x^k))$ ;
校正器:设 $d(x^k,\widetilde{x}^k,\beta ^k)=(I+\beta ^kM^T)(x^k-\widetilde{x}^k)$ ，并且计算 $\alpha ^*_k=\frac{\|x^k-\widetilde{x}^k\|^2}{\|d(x^k,\widetilde{x}^k,\beta ^k)\|^2}$ 。设置 $x^{k+1}=x^k-\gamma\alpha ^*_kd(x^k,\widetilde{x}^k,\beta ^k)$ 。

$PGA_{a2}$

$F (x) = M x + q$
M对称半正定， $G=I+\beta M$

$x^0 \in R^n$ ， $\beta >0$ ，并且 $\gamma \in (0,2)$ ， $\alpha ^*_k \ge \frac{1}{\lambda_{max}(G)}$
预测器: $\widetilde{x}^k=Prox_{\beta\theta}(x^k-\beta F(x^k))$ ;
校正器:设 $d(x^k,\widetilde{x}^k)=x^k-\widetilde{x}^k$ ，并且计算 $\alpha ^*_k=\frac{\|x^k-\widetilde{x}^k\|^2}{\|d(x^k,\widetilde{x}^k)\|^2_G}$ ，设置 $x^{k+1}=x^k-\gamma\alpha ^*_kd(x^k,\widetilde{x}^k)$ 。

$PGA_{b1}$

$F (x)$ 单调

$x^0 \in R^n$ ，并且 $\gamma \in (0,2)$ ， $\alpha ^*_k \ge\frac{1}{2}$
预测器:选择 $\beta ^k>0$ ，使得 $\beta ^k\|F(x^k)-F(\widetilde{x}^k)\|\le\nu\|x^k-\widetilde{x}^k\|$ ，其中 $\widetilde{x}^k=Prox_{\beta ^k\theta}(x^k-\beta ^kF(x^k))$ ;
校正器:设置 $d(x^k,\widetilde{x}^k,\beta ^k)=(x^k-\widetilde{x}^k)-\beta ^k(F(x^k)-F(\widetilde{x}^k))$ ，并且计算 $\alpha^*_k=\frac{(x^k-\widetilde{x}^k)^Td(x^k,\widetilde{x}^k,\beta ^k)}{\|d(x^k,\widetilde{x}^k,\beta ^k)\|^2}$ ，设置 $x^{k+1}=x^k-\gamma\alpha^*_kd(x^k,\widetilde{x}^k,\beta ^k)$ 。

$PGA_{b2}$

$F (x) = A x + c$
A对称半正定, $G=I-\beta M$ ,G对称正定
$x^0 \in R^n$ ， $0<\beta <\frac{1}{\lambda_{max}(A)}$ ，并且 $\gamma \in (0,2)$
预测器: $\widetilde{x}^k=Prox_{\beta\theta}(x^k-\beta F(x^k))$ ;
校正器:设 $d(x^k,\widetilde{x}^k)=x^k-\widetilde{x}^k$ ，设置 $x^{k+1}=x^k-\gamma d(x^k,\widetilde{x}^k)$ 。

交替方向乘子法（ADMM，alternating direction method of multipliers）

$min_{x,y,z}\theta_1(x)+\theta_2(x)+\theta_3(x)$
$s . t . f (x, y, z) = 0$
拉格朗日函数 $L(x,y,z,\lambda)=\theta_1(x)+\theta_2(x)+\theta_3(x)+\lambda f(x,y,z)$
$\lambda$ 为拉格朗日乘子
增广拉格朗日函数 $L(x,y,z,\lambda)=\theta_1(x)+\theta_2(x)+\theta_3(x)+\lambda f(x,y,z)+\frac{\rho}{2} \|f(x,y,z)\|_2^2$
$\lambda$ 为拉格朗日乘子, $\rho$ 罚因子

ADMM

$min_{x,y,z}\theta_1(x)+\theta_2(x)$
$s . t . A x + B y = c$
初始化: $x^0 \in R^n$ ， $y^0 \in R^q$ ， $\lambda^0 \in R^m$ ，并且 $\rho>0.$
一般步骤:对 $k = 0, 1,$ …执行以下步骤:
$(a)x^{k+1}\in \mathop{\arg\min}\{\theta_1(x)+\frac{\rho}{2}\|Ax+By^k-c+\frac{1}{\rho}\lambda^k\|^2:x\in R^n\};$
$(b)y^{k+1}\in \mathop{\arg\min}\{\theta_2(y)+\frac{\rho}{2}\|Ax^{k+1}+By-c+\frac{1}{\rho}\lambda^k\|^2:x\in R^q\};$
$(c)\lambda^{k+1}=\lambda^k+\rho(Ax^{k+1}+By^{k+1}-c).$

交替方向线性近似乘子法（AD-LPMM，linearized proximal）

交替方向近似乘子法（AD-PMM,proximal）的一个特例

初始化: $x^0 \in R^n$ ， $y^0 \in R^q$ ， $\lambda^0 \in R^m$ ，
$\rho>0$ ， $\alpha\ge\rho\lambda_{max}(A^TA)$ ， $\beta\ge\rho\lambda_{max}(B^TB).$
一般步骤:对 $k = 0, 1,$ …执行以下步骤:
$(a)x^{k+1}=Prox_{\frac{1}{\alpha}\theta_1}[x^k+\frac{\rho}{\alpha}A^T(Ax^k+By^k-c+\frac{1}{\rho}\lambda^k)];$
$(b)y^{k+1}=Prox_{\frac{1}{\beta}\theta_2}[y^k+\frac{\rho}{\beta}B^T(Ax^{k+1}+By^k-c+\frac{1}{\rho}\lambda^k)];$
$(c)\lambda^{k+1}=\lambda^k+\rho(Ax^{k+1}+By^{k+1}-c).$