半正定规划简介

最新推荐文章于 2024-07-09 21:39:03 发布

waitingwinter

最新推荐文章于 2024-07-09 21:39:03 发布

阅读量9.3k

点赞数 1

分类专栏：计算数学文章标签：算法

本文链接：https://blog.csdn.net/waitingwinter/article/details/106442137

版权

计算数学专栏收录该内容

10 篇文章

订阅专栏

本文主要内容来自 Vandenberghe, L., & Boyd, S. (1996). Semidefinite Programming. SIAM Review, 38(1), 49–95.

考虑如下优化问题
$\begin{array}{ll} \min& c^Tx\\ s.t.&F(x)\geq 0, \end{array} \tag{1}$
其中
$F(x)\coloneqq F_0+ \sum_{i=1}^{m}x_iF_i.$
在此问题中 $x\in \mathbb{R}^m,$ 给定的数据为向量 $c\in\mathbb{R}^m$ 和 $m + 1$ 个对称矩阵 $F_0,F_1,\cdots,F_m\in\mathbb{R}^{n\times n}.$ 我们称 $F(x)\geq 0$ 为线性矩阵不等式, 称此问题为半正定规划(semidefinite program). 此问题的可行域为 $\{x\mid F(x)\geq 0\}.$

原始对偶问题

优化问题 (1) 对应的对偶问题(dual problem)为
$\begin{array}{ll} \max &-\mathbf{Tr}F_0Z\\ s.t. &\mathbf{Tr}F_iZ=c_i,\quad i=1,2,\cdots,m,\\ &Z\geq 0. \tag{2} \end{array}$
其中, $Z=Z^T\in\mathbb{R}^{n\times n}.$ \
我们称 $Z=Z^T\in\mathbb{R}^{n\times n}$ 是对偶可行的(dual feasible), 如果
$\mathbf{Tr}ZF_i=c_i,i=1,2,\cdots,m, \quad and \quad Z\geq 0.$
我们也称原始的半正定规划问题(\ref{problem1})为原始问题(primal problem). 下面我们将探讨原始问题与对偶问题的一些性质.
假定 $Z$ 是对偶可行的, $x$ 是原始可行的, 那么有
$\begin{aligned} c^Tx+\mathbf{Tr}ZF_0=\sum_{i=1}^{m}\mathbf{Tr}ZF_ix_i+\mathbf{Tr}ZF_0=\mathbf{Tr}ZF(x)\geq 0. \end{aligned}$
因此有
$\begin{aligned} -\mathbf{Tr}F_0Z\leq c^Tx, \end{aligned}\tag{3}$
也就是说, 任意对偶可行点 $Z$ 对应的目标值小于等于任意原始可行点 $x$ 对应的目标值, 我们将这种现象称之为关于 $x$ 与 $Z$ 的对偶间隔(duality gap)：
$\begin{aligned} \eta\coloneqq c^Tx+\mathbf{Tr}F_0Z=\mathbf{Tr}F(x)Z. \end{aligned}$
令 $p^*$ 是原始问题 (\ref{problem1}) 的最优解, 即
$\begin{aligned} p^*\coloneqq \inf\{c^Tx\mid F(x)\geq 0\}, \end{aligned}$
$Z$ 是对偶可行的, 所以由 (3) 式我们有
$-\mathbf{Tr}F_0Z\leq q^*.$ 同理, 令 $d^*$ 是对偶问题 (2) 的最优解, 即
$\begin{aligned} d^*\coloneqq \sup\{-\mathbf{Tr}F_0Z\mid Z=Z^T\geq 0, \mathbf{Tr}F_iZ=c_i,\;i=1,2,\cdots,m\}. \end{aligned}$
同样由 (3) 得
$d^*\leq c^Tx.$
我们试图寻找 $q^*$ 与 $d^*$ 之间的联系. 为此, 令 $\mathbf{X}_{opt},\mathbf{Z}_{opt}$ 分别为原始, 对偶问题的最优解, 即 $\begin{aligned} \mathbf{X}_{opt}&\coloneqq \{x\mid F(x)\geq 0\;and\;c^Tx=p^*\},\\ \mathbf{Z}_{opt}&\coloneqq \{Z\mid Z=Z^T\geq 0,\;\mathbf{Tr}F_iZ=c_i,\,i=1,2\cdots,m, \; and\;-\mathbf{Tr}F_oZ=d^*\}. \end{aligned}$
我们有如下定理:
设 $q^*,d^*$ 分别如前定义, 则 $p^*=d^*$ , 如果下面两个条件之一成立:

原始问题 (1) 是严格可行的, 即存在 $x$ s.t. $F (x) > 0$ ;
对偶问题 (2) 是严格可行的, 即存在 $Z=Z^T\geq 0, ;\mathbf{Tr}F_iZ=c_1,\;i=1,2,\cdots,m.$ 如果两个条件均成立, 则 $\mathbf{X}_{opt},\mathbf{Z}_{opt}$ 非空.

另外, 值得一提的是, 如果最优集合非空, 即存在可行点 $x, Z$ 使得 $\begin{aligned} c^Tx=-\mathbf{Tr}F_0Z=p^*=d^*, \end{aligned}$
此时对偶间隔 $\eta=\mathbf{Tr}F(x)Z= c^Tx+\mathbf{Tr}F_0Z=p^*-d^*=0,$ 这便意味着原始问题与对偶问题某种意义上等价. 在实际计算中, 我们通过描述对偶间隔来衡量这两个问题的差异性.
间隔}来衡量这两个问题的差异性.\
假定有一个算法可以产生一系列的原始对偶可行点 $x^{(k)},Z^{(k)},$ 其中 $k=0,1,\cdots$ 为迭代次数. 我们将 $x^{(k)}$ 看作给出下界的次优解, $Z^{(k)}$ 看作给出下界的凭证, 即
$\begin{aligned} p^*\leq c^Tx^{(k)},\quad p^*\geq -\mathbf{Tr}F_0Z^{(k)}. \end{aligned}$ 因而有 $\begin{aligned} c^Tx^{(k)}-p^*\leq \eta^{(k)}=c^Tx^{(k)}+\mathbf{Tr}F_0Z^{(k)}. \end{aligned}$
也就是说, 当 $\eta^{(k)}\to 0$ 时, 我们便可把 $x^{(k)}$ 看作原始问题(1) 的最优解的逼近. 那么关键的问题就是, $\textbf{\textcolor{red}{如何寻找一个满足条件的原始对偶算法呢}}?$
或者说, 如何求解下述问题? $\begin{array}{ll} \min&c^Tx+\mathbf{Tr}F_0Z\\ s.t.&F(x)\geq 0,\;Z\geq 0,\\ &\mathbf{Tr}F_iZ=c_i,\quad i=1,2,\cdots,m. \end{array}$

中心路径

在解决上述问题(\ref{12}) 之前, 我们先做一些准备. 对于线性矩阵不等式 $F(x)\geq 0$ , 我们定义其障碍函数 $\phi(x)$
$\Phi(x) \coloneqq \left\{ \begin{array}{cc} \log \det F(x)^{-1}, &if \; F(x)>0,\\ +\infty, & otherwise. \end{array}\right.$
经计算有， $\phi(x)$ 的梯度与 Hessian 为
$\begin{aligned} \big(\nabla \phi(x)\big)_i &= -\mathbf{Tr}F(x)^{-1}F_i\\ \big(\nabla ^2\phi(x)\big)_{ij}&= \mathbf{Tr}F(x)^{-1}F_iF(x)^{-1}F_j \end{aligned}$
令 $\mathbf{X}=\{x\mid F(x)>0\},$ 假设 $X$ 是有界的, 因为 $\phi$ 是严格凸的, 其有唯一的极小值点, 不妨记为 $x^*$ , 即
$\begin{aligned} x^*\coloneqq argmin \;\phi(x). \end{aligned}$
我们称 $x^*$ 是线性矩阵不等式 $F(x)\geq 0$ 的解析中心(Analytic center). 容易证明 $x^*$ 有下述性质( $\nabla \phi(x)=0$ )
$\mathbf{Tr}F(x^*)^{-1}F_i=0,\quad i=1,2,\cdots,m.$ 给定障碍函数 $\phi(x),$ 我们可以利用标准的 Newton 法来计算其解析中心 $x^*.$ 我们有如下定理:
假定 $\epsilon\in(0,0.5),x^{(k)}$ 是 $x^{(0)}$ 通过 Newton 法 $k$ 次迭代后得到的值, 则对于任意满足下式的 $k$ $\begin{aligned} k\geq 11\big(\phi(x^{(0)})-\phi(x^*)\big) + \log_2\log_2\bigg(\frac{1}{\epsilon}\bigg), \end{aligned}$ 我们有 $\phi(x^{(k)})-\phi(x^*)\leq \epsilon.$
让我们回到原始问题(1), 考虑如下线性矩阵不等式
$\begin{aligned} F(x)>0,\\ c^Tx=\gamma. \end{aligned}$
此问题对应的解析中心 $x^*(\gamma)$ 满足
$\begin{aligned} x^*(\gamma)\coloneqq\;&argmin& \log\det F(x)^{-1}\\ &s.t.&F(x)>0,\\ &&c^Tx=\gamma. \end{aligned}$
称 $x^*(\gamma)$ 为问题 (\ref{problem1}) 的中心路径(central path).
考虑上述问题 (2) 的 KKT 条件, 我们有
$\begin{aligned} \mathbf{Tr}F\big(x^*(\gamma)\big)^{-1}F_i=\lambda c_i,\quad i=1,2,\cdots,m. \end{aligned}$ 当 $\lambda>0$ 时, 容易知矩阵 $F\big(x^*(\gamma)\big)^{-1}/\lambda$ 是对偶可行的, 此时与原始对偶可行有关的对偶间隔为 $\begin{aligned} \eta = \mathbf{Tr}F(x)Z=\mathbf{x^*(\gamma)}F\big(x^*(\gamma)\big)^{-1}/\lambda = n/\lambda. \end{aligned}$ 事实上, $F\big(x^*(\gamma)\big)^{-1}/\lambda$ 不仅是对偶可行的, 它还是下述对偶半正定规划问题的中心路径 $\begin{array}{ll} \min &\log \det Z^{-1}\\ s.t.&\mathbf{Tr}F_iZ=c_i,\quad i=1,2,\cdots,m,\\ &Z>0,\\ &-\mathbf{Tr}F_0Z=\gamma -\frac{n}{\lambda}. \end{array}$ 对每个严格可行点 $x$ , 我们定义中心路径偏差(the deviation from the central path ) $\Psi(x)$ 为 $\begin{aligned} \Psi(x)\coloneqq \log \det F(x)^{-1}-\log\det F\big(x^*(c^Tx)\big)^{-1}. \end{aligned}$
取 $\epsilon=2^{-32},$ 结合Theorem2, 我们有 $\begin{aligned} \# Newton\; steps &\leq 5 + 11(\log\det F(x)^{-1}-\log \det F(x^*(c^Tx))^{-1})\\ &=5 + 11 \psi (x). \end{aligned}$
中心路径 ( $x^*(\eta),Z^*(\eta)$ ) 的原始对偶参数化可以被如下定义: $\begin{array}{lll} \big(x^*(\eta),Z^*(\eta)\big)\coloneqq& argmin &-\log \det F(x) - \log \det Z\\ & s.t.&F(x)>0,\;Z>0,\\ & &\mathbf{Tr}F_iZ=c_i,\;i=1,2,\cdots,m,\\ & &c^Tx+\mathbf{Tr} F_0Z=\eta \end{array}$
容易知道, $(x^*(\eta),Z^*(\eta))$ 具有如下性质:
$\begin{aligned} &F(x^*(\eta))\geq 0,\\ &Z^*(\eta)\geq 0,\;\mathbf{Tr}F_iZ^*(\eta)=c_i,\;i=1,2,\cdots,m,\\ &Z^*(\eta)F(x^*(\eta))=\bigg(\frac{\eta}{n}\bigg)I. \end{aligned}$ 最优性条件 $Z F (x) = 0$ 经过扰动变为了 $ZF(x)=(\eta/n)I$ 那么有 $\eta \to 0,(x^*(\eta),Z^*(\eta))\to(x^*,Z^*).$ 又因为
$\begin{aligned} -\log\det F(x^*(\eta))Z^*(\eta)=-n\log\bigg(\frac{\eta}{n}\bigg)=n\log n-n\log \,\mathbf{Tr}F(x)Z. \end{aligned}$ $(x^*(\eta),Z^*(\eta))$ 与 $(x, Z)$ 之间的中心偏差为
$\begin{aligned} \psi(x,Z)& \coloneqq -\log\det F(x)Z+\log\det F(x^*(\eta)Z^*(\eta))\\ &=-\log\det F(x)Z+n\log\mathbf{Tr}F(x)Z-n\log n. \end{aligned}$

原始对偶问题势函数下降方法

定义如下势函数(Potential function) $\begin{aligned} \phi(x,Z)&=\nu\sqrt{n}\log(\mathbf{Tr}F(x)Z)+\psi(x,Z)\\ &=(n+\nu\sqrt{n})\log(\mathbf{Tr}F(x)Z)-\log\det F(x) -\log\det Z-n\log n. \end{aligned}$
此处, $\phi$ 是 $(x,Z) $ 对偶间隔与中心偏差的组合, 其中 $\nu\geq 1$ 是参数. 所以 $\phi(x,Z)$ 便可以很好地衡量 $(x^*(\eta),Z^*(\eta))$ 到精确解 $x^*,Z^*)$ 的距离. 也就是说,
求解原始问题 (1) 与对偶问题(2), 可以转化为极小化对偶间隔和中心偏差, 进而转化为极小化势函数 $\mathbf{\phi(x,Z)}$ .
势函数下降算法从严格可行点 $x^{(0)},Z^{(0)}$ 出发, 每步迭代减少固定的常数, 即
$\begin{aligned} \phi(x^{(k+1)},Z^{(k+1)})\leq \phi(x^{(k)},Z^{(k)})-\delta, \end{aligned}$
其中 $\delta $ 是一个常数. 那么它的收敛情况呢? 我们有如下定理:
假定上式对常数 $\delta$ 成立, 其中 $\delta$ 不依赖于 $n,\epsilon$ , $\epsilon\in(0,1).$ 那么对任意满足如下条件的 $k$ $\begin{aligned} k\geq \frac{\nu \sqrt{n}\log(1/\epsilon)+\psi(x^{(0)},Z^{(0)})}{\delta}, \end{aligned}$ 我们有 $\mathbf{Tr}F(x^{(k)})Z^{(k)}<\epsilon \mathbf{Tr}F(x^{(0)})Z^{(0)}.$
下面我们便来具体探讨如何极小化势函数 $\phi(x).$
极小化 $\phi(x)$ , 便要寻找线搜索方向 $\delta x, \delta z$ .文章中介绍了三种求解搜索方向的方法, 此处我们只选取第一种方法, 也是最显然的方法 —— Newton 法
注意到 $\phi(x)$ 不是凸函数, 它的第一项 $(n+\nu\sqrt{n})\log(c^Tx+\mathbf{Tr}F_0Z)$ 是凹函数, 故我们取 $\phi(x)$ 的二阶导数时忽略第一项的二阶导数, 也即修正的 Newton 方法. 具体计算过程我们不再给出, 只给出最后结果.
令 $\rho=(n+\nu\sqrt{n})/(c^Tx+\mathbf{Tr}F_0Z),$ 则 $\delta x^p$ 可从如下方程中得出 $\begin{aligned} F\delta Z^pF+\sum_{i=1}^m\delta x_i^pF_i=-\rho FZF+F,\\ \mathbf{Tr}F_j\delta Z^p=0,\quad j=1,2,\cdots,m. \end{aligned}$
$\delta Z^d$ 可从如下方程得出: $\begin{aligned} Z^{-1}\delta Z^dZ^{-1}+\sum_{i=1}^m\delta x_i^dF_i=-\rho F+Z^{-1},\\ \mathbf{Tr}F_j\delta Z^d=0,\quad j=1,2,\cdots,m. \end{aligned}$ 在确立了搜索方向 $\delta x,\delta Z$ 之后, 我们可以通过平面搜索(Plane Search)来确定对应的步长. 具体而言, $\begin{aligned} \phi(x+p\delta x,Z+q\delta Z)&=\phi(x,Z)+(n+\nu\sqrt{n})\log(1+c_1p+c_2q)\\ &-\log\det (I+\rho F^{-1/2}\delta FF^{-1/2})-\log\det(I+qZ^{-1/2}\delta ZZ^{-1/2}), \end{aligned}$
\end{equation}
其中 $F=F(x),\delta F\coloneqq \sum_{i=1}^m\delta x_iF_i,$
$c_1=\frac{c^T\delta x}{\mathbf{TrF(x)Z}}, \quad c_2 = \frac{\mathbf{Tr}F_0\delta Z}{\mathbf{Tr}F(x)Z}.$
记 $\mu_1,\cdots,\mu_n$ 是矩阵 $F^{-1/2}\delta FF^{-1/2}$ 的特征值, $\nu_1,\cdots,\nu_n$ 是 $Z^{-1/2}\delta ZZ^{-1/2}$ 的特征值. 则 $\begin{array}{l} \phi(x+p\delta x,Z+q\delta Z)=\phi(x,Z)\\ +(n+\mu\sqrt{n})\log(1+c_1p+c_2q)-\sum_{i=1}^n\log(1+p\mu_i)-\sum_{i=1}^n\log(1+q\nu_i). \end{array}$
此问题可以被标准的 guarded Newton 方法解决.
至此，我们便介绍完了文章的主要内容.(Markdown能不能直接插入定理环境呢？这样的定理不太美观)。