矩阵秩为1的等价(充分必要)条件

Problem1

为什么 W \mathbf{W} W是秩 1 1 1的可以等价于 Tr ⁡ ( W ) − λ max ⁡ ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W})-\lambda_{\max }(\mathbf{W}) \leq 0 Tr(W)λmax(W)0

解答1

这里我们考虑的是一个矩阵 W \mathbf{W} W 是否是秩1矩阵的问题,等价于判断矩阵 W \mathbf{W} W 的迹和最大特征值之间的关系。

首先,假设 W \mathbf{W} W 是秩1矩阵,可以表示为 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,其中 u \mathbf{u} u v \mathbf{v} v 是列向量。那么矩阵 W \mathbf{W} W 的迹是 Tr ⁡ ( W ) = u T v \operatorname{Tr}(\mathbf{W}) = \mathbf{u}^T\mathbf{v} Tr(W)=uTv,最大特征值是 λ max ⁡ ( W ) = ∥ W ∥ 2 = ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \lambda_{\max}(\mathbf{W}) = \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 λmax(W)=W2=uvT2=u2v2。由于矩阵的二范数等于其最大特征值,所以 ∥ W ∥ 2 = ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 W2=uvT2=u2v2=u2v2

根据柯西-施瓦茨不等式, u T v ≤ ∥ u ∥ 2 ∥ v ∥ 2 \mathbf{u}^T\mathbf{v} \leq \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 uTvu2v2,所以 Tr ⁡ ( W ) = u T v ≤ ∥ u ∥ 2 ∥ v ∥ 2 = λ max ⁡ ( W ) \operatorname{Tr}(\mathbf{W}) = \mathbf{u}^T\mathbf{v} \leq \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \lambda_{\max}(\mathbf{W}) Tr(W)=uTvu2v2=λmax(W),即 Tr ⁡ ( W ) − λ max ⁡ ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)λmax(W)0

反过来,如果 Tr ⁡ ( W ) − λ max ⁡ ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)λmax(W)0则根据柯西-施瓦茨不等式,存在某个单位向量 u \mathbf{u} u 和向量 v \mathbf{v} v 使得 u T v = Tr ⁡ ( W ) \mathbf{u}^T\mathbf{v} = \operatorname{Tr}(\mathbf{W}) uTv=Tr(W) ∥ u ∥ 2 ∥ v ∥ 2 = λ max ⁡ ( W ) \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \lambda_{\max}(\mathbf{W}) u2v2=λmax(W) 成立。因此, W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT 是秩1矩阵。

综上所述, W \mathbf{W} W 是秩1矩阵的充要条件是 Tr ⁡ ( W ) − λ max ⁡ ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)λmax(W)0

Problem2

为什么秩 1 1 1矩阵 W \mathbf{W} W如果 W ⪰ 0 \mathbf{W} \succeq \mathbf{0} W0, 必有 Tr ⁡ ( W ) − λ max ⁡ ( W ) ≥ 0 \operatorname{Tr}(\mathbf{W})-\lambda_{\max }(\mathbf{W}) \ge 0 Tr(W)λmax(W)0

为什么秩一矩阵的二范数等于其最大特征值

如果给定矩阵 W \mathbf{W} W 是由列向量 u \mathbf{u} u v \mathbf{v} v 的外积形成的,即 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,那么它的最大特征值可以通过以下方式求解:

由于 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,所以 W \mathbf{W} W 的特征值中至少有一个是零,因为它是秩1矩阵。

另外, W \mathbf{W} W 的非零特征值可以通过求解方程 W x = λ x \mathbf{Wx} = \lambda \mathbf{x} Wx=λx 获得,其中 x \mathbf{x} x 是非零特征值对应的特征向量, λ \lambda λ 是非零特征值。

W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT 代入上述方程,得到:

u v T x = λ x \mathbf{uv}^T\mathbf{x} = \lambda \mathbf{x} uvTx=λx

由于 v T x \mathbf{v}^T\mathbf{x} vTx 是一个标量,记为 c c c,那么上式可以重写为:

u c = λ x \mathbf{u}c = \lambda \mathbf{x} uc=λx

这表明非零特征向量 x \mathbf{x} x 与列向量 u \mathbf{u} u 共线。因此,非零特征向量可以取 u \mathbf{u} u 的任意倍数。考虑到特征向量的归一化要求,我们可以假设 ∥ x ∥ 2 = 1 \|\mathbf{x}\|_2 = 1 x2=1,因此有 c = ∥ u ∥ 2 c = \|\mathbf{u}\|_2 c=u2

因此,非零特征值 λ \lambda λ 就是 ∥ u ∥ 2 \|\mathbf{u}\|_2 u2,并且对应的特征向量是 v \mathbf{v} v。所以最大的非零特征值是 λ max ⁡ = ∥ u ∥ 2 \lambda_{\max} = \|\mathbf{u}\|_2 λmax=u2

综上所述,对于矩阵 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,最大的非零特征值是列向量 u \mathbf{u} u 的二范数。


当我们说矩阵的二范数等于其最大特征值时,我们指的是矩阵的谱范数(或者叫二范数)等于其最大特征值的模。对于实对称矩阵,谱范数即为最大特征值的绝对值。

对于矩阵 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们可以按照以下步骤解释这个等式:

  1. 首先,( ∥ W ∥ 2 \|\mathbf{W}\|_2 W2) 表示矩阵 ( W \mathbf{W} W) 的谱范数,即 ( ∥ W ∥ 2 = λ max ⁡ ( W ) \|\mathbf{W}\|_2 = \lambda_{\max}(\mathbf{W}) W2=λmax(W)),其中 ( λ max ⁡ ( W ) \lambda_{\max}(\mathbf{W}) λmax(W)) 是矩阵 ( W \mathbf{W} W) 的最大特征值的模。

  2. 对于矩阵 ( u v T \mathbf{uv}^T uvT),我们知道它的特征值是 ( u \mathbf{u} u) 的二范数与 ( v \mathbf{v} v) 的二范数之积。这意味着 ( ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 uvT2=u2v2)。

  3. 由于 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),所以 ( ∥ W ∥ 2 = ∥ u v T ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 W2=uvT2)。

  4. 将第2步的结果代入第3步,我们得到 ( ∥ W ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 W2=u2v2)。

因此,这个等式说明了矩阵 ( W \mathbf{W} W) 的谱范数等于列向量 ( u \mathbf{u} u) 的二范数与列向量 ( v \mathbf{v} v) 的二范数的乘积。


当我们考虑矩阵的二范数时,我们实际上在寻找一个矩阵变换后的向量的长度的最大值。

对于矩阵 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们要找到 ( W x \mathbf{Wx} Wx) 的最大范数,其中 ( x \mathbf{x} x) 是一个单位向量。

由于 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们有

[ W x = ( u v T ) x = u ( v T x ) \mathbf{Wx} = (\mathbf{uv}^T)\mathbf{x} = \mathbf{u}(\mathbf{v}^T\mathbf{x}) Wx=(uvT)x=u(vTx)]

注意到 ( v T x \mathbf{v}^T\mathbf{x} vTx) 是一个标量,所以我们可以将其记为 ( c c c),这样我们有

[
W x = u c \mathbf{Wx} = \mathbf{u}c Wx=uc
]

现在,我们要找到使 ( ∥ W x ∥ 2 \|\mathbf{Wx}\|_2 Wx2) 最大的单位向量 ( x \mathbf{x} x)。因为 ( ∥ W x ∥ 2 = ∥ u c ∥ 2 \|\mathbf{Wx}\|_2 = \|\mathbf{u}c\|_2 Wx2=uc2),我们实际上在寻找使 ( ∥ u c ∥ 2 \|\mathbf{u}c\|_2 uc2) 最大的单位向量 ( x \mathbf{x} x)。

注意到 ( ∥ u c ∥ 2 = ∣ c ∣ ∥ u ∥ 2 \|\mathbf{u}c\|_2 = |c|\|\mathbf{u}\|_2 uc2=c∣∥u2),所以要使 ( ∥ W x ∥ 2 \|\mathbf{Wx}\|_2 Wx2) 最大,只需最大化 ( ∥ u ∥ 2 \|\mathbf{u}\|_2 u2)。

因此,当我们取单位向量 ( x \mathbf{x} x) 与向量 ( v \mathbf{v} v) 的方向一致时,矩阵 ( W x \mathbf{Wx} Wx) 的范数达到最大值,此时最大特征值就等于 ( ∥ u ∥ 2 \|\mathbf{u}\|_2 u2),即 ( ∥ W ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 W2=u2v2)。

矩阵函数的subgradient

在凸优化中,当我们考虑一个非光滑凸函数的优化问题时,我们通常使用 subgradient 来描述该函数的次梯度。

对于一个凸函数 ( f : R n → R f: \mathbb{R}^n \rightarrow \mathbb{R} f:RnR),在点 ( x \mathbf{x} x) 处的 subgradient 是一个向量或向量集合 ( g \mathbf{g} g),满足对于任意点 ( y \mathbf{y} y) ,都有:

[ f ( y ) ≥ f ( x ) + g T ( y − x ) f(\mathbf{y}) \geq f(\mathbf{x}) + \mathbf{g}^T (\mathbf{y} - \mathbf{x}) f(y)f(x)+gT(yx)]

换句话说,subgradient 是一个在给定点处使得函数值可以被一个一次函数下界的向量。对于光滑凸函数,它在每个点处都有唯一的梯度,但是对于非光滑凸函数,它在某些点可能没有梯度,或者有多个梯度,此时我们使用 subgradient 来扩展梯度的概念。

举例来说,对于绝对值函数 ( f ( x ) = ∣ x ∣ f(x) = |x| f(x)=x),在 ( x = 0 x = 0 x=0) 处没有定义梯度,但是存在 subgradient,即 ( − 1 ≤ g ≤ 1 -1 \leq g \leq 1 1g1)。

  • 14
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值