无处不在的Schur补：凸优化角度的证明

最新推荐文章于 2025-02-16 21:07:30 发布

B417科研笔记

最新推荐文章于 2025-02-16 21:07:30 发布

阅读量5k

点赞数 16

分类专栏：通信中的常用数学文章标签：矩阵线性代数机器学习

本文链接：https://blog.csdn.net/weixin_39274659/article/details/121942523

版权

通信中的常用数学专栏收录该内容

48 篇文章

订阅专栏

前言

之前在各类应用中接触到了 Schur补，即舒尔补这个概念。而下定决心写一篇博客来记录，是由于在压缩感知的尽头: 原子范数最小化又一次充分应用到了 Schur 补。似乎，这和矩阵的半正定性，和 SDP 的充分使用，密不可分。因此，有足够的理由深入了解。

参考的书籍为： Convex Optimization for Signal Processing and Communications: From Fundamentals to Applications.

无疑是凸优化的一本好书，和Boyd的著作相比，完全称得上是各有千秋。后续的许多博客，可能也会介绍其中的精华内容。

Schur 补

假设 $\mathbf{C} \in \mathbb{S}_{++}^{m}, \mathbf{A} \in \mathbb{S}^{n}$ ，即前者为正定矩阵，后者为对称矩阵。那么：
$\mathrm{S} \triangleq\left[\begin{array}{cc} \mathrm{A} & \mathrm{B} \\ \mathrm{B}^{\mathrm{T}} & \mathrm{C} \end{array}\right] \succeq 0, \text { 当且仅当 } \mathrm{S}_{\mathrm{C}} \triangleq \mathrm{A}-\mathrm{BC}^{-1} \mathrm{~B}^{\mathrm{T}} \succeq 0$
其中， $\mathrm{S}_{\mathrm{C}}$ 被称为 Schur 补。可以看到，此处要求 $\mathbf{C}$ 矩阵必须可逆，这也是一开始要求其为正定矩阵的原因。

证明：必要性

由于 $\mathbf{S}\succeq 0$ ，根据半正定矩阵的定义，有：
$\begin{aligned} f(\mathbf{x}, \mathbf{y}) &=\left[\mathbf{x}^{\mathrm{T}} \;\mathbf{y}^{\mathrm{T}}\right] \mathbf{S}\left[\begin{array}{l} \mathbf{x} \\ \mathbf{y} \end{array}\right] \\ &=\left[\mathbf{x}^{\mathrm{T}}\; \mathbf{y}^{\mathrm{T}}\right]\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{B}^{\mathrm{T}} & \mathbf{C} \end{array}\right]\left[\begin{array}{l} \mathbf{x} \\ \mathbf{y} \end{array}\right] \geqslant 0, \forall(\mathbf{x}, \mathbf{y}) \in \mathbb{R}^{n+m} \end{aligned}$
这是关于 $f(\mathbf{x}, \mathbf{y})$ 的凸函数，因为这是个二次型函数，而矩阵 $\mathbf{S}$ 半正定，因此可由二阶条件直接得到。再考虑函数：
$g(\mathbf{x})=\inf _{\mathbf{y} \in \mathbb{R}^{m}} f(\mathbf{x}, \mathbf{y}) \geqslant 0 \tag{1}$
注意到 $g (x)$ 可以视为 $f (x, y)$ 在非空凸集中的逐点下确界。因此， $g (x)$ 也是凸函数（逐点下确界法则）。同时注意到，
$f(\mathbf{x}, \mathbf{y})=\mathbf{x}^{\mathrm{T}} \mathbf{A} \mathbf{x}+2 \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{y}+\mathbf{y}^{\mathrm{T}} \mathbf{C y}$
因此当固定 $x$ 时， $f$ 对于 $y$ 是个凸函数（因为二次型函数， $\mathbf{C}$ 为正定）。因此，要找出 (1) 中的下界，先对 $y$ 求梯度：
$\nabla_{\mathbf{y}} f(\mathbf{x}, \mathbf{y})=2 \mathbf{B}^{\mathrm{T}} \mathbf{x}+2 \mathbf{C y}=\mathbf{0} \Rightarrow \mathbf{y}^{\star}=-\mathbf{C}^{-1} \mathbf{B}^{\mathrm{T}} \mathbf{x}$
将其代入 (1)，有：
$\begin{aligned} g(\mathbf{x}) &=f\left(\mathbf{x}, \mathbf{y}^{*}\right) \\ &=\mathbf{x}^{\mathrm{T}} \mathbf{A} \mathbf{x}-2 \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{C}^{-1} \mathbf{B}^{\mathrm{T}} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{C}^{-1} \mathbf{B}^{\mathrm{T}} \mathbf{x} \\ &=\mathbf{x}^{\mathrm{T}}\left(\mathbf{A}-\mathbf{B} \mathbf{C}^{-1} \mathbf{B}^{\mathrm{T}}\right) \mathbf{x}=\mathbf{x}^{\mathrm{T}} \mathbf{S}_{\mathbf{C}} \mathbf{x} \ge 0, \quad \forall \mathbf{x} \in \mathbb{R}^{n} \end{aligned}$
因此， $\mathbf{S}_\mathbf{C}$ 为半正定矩阵。至此，必要性得证。

证明：充分性

$\mathbf{S}_\mathbf{C}\succeq0$ 时，直接有
$g(x)\ge 0, \forall \mathbf{x}\in\mathbb{R}^n$
而 $f(x,y)\ge g(x)$ ，因为 $g (x)$ 的定义就是 $f (x, y)$ 的下确界。因此， $\mathbf{S}\succeq 0$ 显然成立。充分性得证。

拓展

当 $\mathbf{C}$ 为半正定时， Schur补变为： $\mathrm{S}_{\mathbf{C}}=\mathbf{A}-\mathbf{B C}^{\dagger} \mathbf{B}^{\mathrm{T}}$
结论仍成立。

类似的推导下，也可以有：
$\mathrm{S} \triangleq\left[\begin{array}{cc} \mathrm{A} & \mathrm{B} \\ \mathrm{B}^{\mathrm{T}} & \mathrm{C} \end{array}\right] \succeq 0, \quad \text { 当且仅当 } \mathrm{S}_{\mathrm{A}} \triangleq \mathrm{C}-\mathrm{B}^{\mathrm{T}} \mathrm{A}^{-1} \mathrm{~B} \succeq 0$