证明: 当 ||x||=1时,Ax=0的最小二乘解是 A T A A^TA ATA的最小特征值对应的特征向量
证:上式等同于证明如下命题:
A
T
A
A^TA
ATA的最小特征值所对应的特征向量可使||Ax||最小。
(1) 若x为
A
T
A
A^TA
ATA的特征向量,则
A
T
A
x
=
λ
x
A^TAx=\lambda x
ATAx=λx
可得
∣
∣
A
x
∣
∣
=
(
A
x
)
T
(
A
x
)
=
x
T
A
T
A
x
=
x
T
λ
x
=
x
T
x
λ
=
λ
\begin{aligned} ||Ax|| & =(Ax)^T(Ax) \\ &=x^TA^TAx \\ &=x^T\lambda x\\ &=x^Tx\lambda \\ &=\lambda \end{aligned}
∣∣Ax∣∣=(Ax)T(Ax)=xTATAx=xTλx=xTxλ=λ
由上式可见,取 A T A A^TA ATA的最小特征值 λ \lambda λ可使 ∣ ∣ A x ∣ ∣ ||Ax|| ∣∣Ax∣∣最小。
(2)若 x x x不为 A T A A^TA ATA的特征向量,则可对 A A A做SVD分解,得
A = U Λ V T A=U \Lambda V^T A=UΛVT
则
∣
∣
A
x
∣
∣
=
(
A
x
)
T
(
A
x
)
=
x
T
A
T
A
x
=
x
T
V
Λ
T
U
T
U
Λ
V
T
x
=
x
T
V
Λ
T
Λ
V
T
x
\begin{aligned} ||Ax||&=(Ax)^T(Ax)=x^TA^TAx\\ &=x^TV\Lambda^TU^TU\Lambda V^Tx\\ &=x^TV\Lambda^T\Lambda V^Tx \end{aligned}
∣∣Ax∣∣=(Ax)T(Ax)=xTATAx=xTVΛTUTUΛVTx=xTVΛTΛVTx
又因为
Λ
T
Λ
=
[
λ
1
2
λ
2
2
⋯
λ
n
2
]
\Lambda^T\Lambda=\begin{bmatrix} \lambda_1^2 &&& \\ & \lambda_2^2&&& \\ &&\cdots&&\\ &&&\lambda_n^2&\\ \end{bmatrix}
ΛTΛ=⎣⎢⎢⎡λ12λ22⋯λn2⎦⎥⎥⎤
且在svd分解中
V
V
V为一组n维的正交基,即
V
=
[
v
1
v
2
⋯
v
n
]
V=\begin{bmatrix}v_1& v_2& \cdots &v_n\end{bmatrix}
V=[v1v2⋯vn]
因此,n维向量x可用该组基来表示:
x
=
α
1
v
1
+
α
2
v
2
+
⋯
+
α
n
v
n
=
[
v
1
v
2
⋯
v
n
]
[
α
1
α
2
⋯
α
n
]
\begin{aligned} x&=\alpha_1v_1+\alpha_2v_2+\cdots+\alpha_nv_n &=\begin{bmatrix} v_1 & v_2 &\cdots & v_n \end{bmatrix}\begin{bmatrix} \alpha_1 \\ \alpha_2 \\ \cdots\\ \alpha_n \end{bmatrix} \end{aligned}
x=α1v1+α2v2+⋯+αnvn=[v1v2⋯vn]⎣⎢⎢⎡α1α2⋯αn⎦⎥⎥⎤
将上述两个式子代入,可得
∣
∣
A
x
∣
∣
=
x
T
V
Λ
T
Λ
V
T
x
=
[
α
1
α
2
⋯
α
n
]
[
v
1
v
2
⋯
v
n
]
[
v
1
v
2
⋯
v
n
]
[
λ
1
2
λ
2
2
⋯
λ
n
2
]
[
v
1
v
2
⋯
v
n
]
[
v
1
v
2
⋯
v
n
]
[
α
1
α
2
⋯
α
n
]
=
[
α
1
α
2
⋯
α
n
]
[
λ
1
2
λ
2
2
⋯
λ
n
2
]
[
α
1
α
2
⋯
α
n
]
=
α
1
2
λ
1
2
+
α
2
2
λ
2
2
+
⋯
+
α
n
2
λ
n
2
\begin{aligned} ||Ax||&=x^TV\Lambda^T\Lambda V^Tx \\ &=\begin{bmatrix} \alpha_1&\alpha_2&\cdots&\alpha_n \end{bmatrix} \begin{bmatrix} v_1\\ v_2\\ \cdots\\ v_n \end{bmatrix} \begin{bmatrix} v_1&v_2&\cdots&v_n \end{bmatrix} \begin{bmatrix} \lambda_1^2 && \\ & \lambda_2^2&& \\ &&\cdots&\\ &&&\lambda_n^2\\ \end{bmatrix}\\ &\begin{bmatrix} v_1\\ v_2\\ \cdots\\ v_n \end{bmatrix} \begin{bmatrix} v_1&v_2&\cdots&v_n \end{bmatrix} \begin{bmatrix} \alpha_1\\ \alpha_2\\ \cdots\\ \alpha_n\\ \end{bmatrix}\\ &=\begin{bmatrix} \alpha_1&\alpha_2&\cdots&\alpha_n \end{bmatrix} \begin{bmatrix} \lambda_1^2 && \\ & \lambda_2^2&& \\ &&\cdots&\\ &&&\lambda_n^2\\ \end{bmatrix} \begin{bmatrix} \alpha_1\\ \alpha_2\\ \cdots\\ \alpha_n\\ \end{bmatrix}\\ &=\alpha_1^2\lambda_1^2+\alpha_2^2\lambda_2^2+\cdots+\alpha_n^2\lambda_n^2 \end{aligned}
∣∣Ax∣∣=xTVΛTΛVTx=[α1α2⋯αn]⎣⎢⎢⎡v1v2⋯vn⎦⎥⎥⎤[v1v2⋯vn]⎣⎢⎢⎡λ12λ22⋯λn2⎦⎥⎥⎤⎣⎢⎢⎡v1v2⋯vn⎦⎥⎥⎤[v1v2⋯vn]⎣⎢⎢⎡α1α2⋯αn⎦⎥⎥⎤=[α1α2⋯αn]⎣⎢⎢⎡λ12λ22⋯λn2⎦⎥⎥⎤⎣⎢⎢⎡α1α2⋯αn⎦⎥⎥⎤=α12λ12+α22λ22+⋯+αn2λn2
不是一般性,可令
λ
1
⋯
λ
N
\lambda_1\cdots\lambda_N
λ1⋯λN的降序排列,则
α
1
2
λ
1
2
+
α
2
2
λ
2
2
+
⋯
+
α
n
2
λ
n
2
≥
λ
N
2
(
α
1
2
+
α
2
2
+
⋯
+
α
n
2
)
\alpha_1^2\lambda_1^2+\alpha_2^2\lambda_2^2+\cdots+\alpha_n^2\lambda_n^2 \geq \lambda_N^2(\alpha_1^2+\alpha_2^2+\cdots+\alpha_n^2)
α12λ12+α22λ22+⋯+αn2λn2≥λN2(α12+α22+⋯+αn2)
因为
∣
∣
x
∣
∣
=
1
||x||=1
∣∣x∣∣=1,因此
(
α
1
2
+
α
2
2
+
⋯
+
α
n
2
)
=
1
(\alpha_1^2+\alpha_2^2+\cdots+\alpha_n^2)=1
(α12+α22+⋯+αn2)=1
所以
∣
∣
A
x
∣
∣
≥
λ
N
2
(
α
1
2
+
α
2
2
+
⋯
+
α
n
2
)
||Ax||\geq \lambda_N^2(\alpha_1^2+\alpha_2^2+\cdots+\alpha_n^2)
∣∣Ax∣∣≥λN2(α12+α22+⋯+αn2)
因此,取 A T A A^TA ATA的最小特征值 λ \lambda λ可使 ∣ ∣ A x ∣ ∣ ||Ax|| ∣∣Ax∣∣最小
综上,取ATA的最小特征值对应的特征向量可使Ax=0得到最优解,命题得证。
参考自:
博主:emilycs09
博文地址:https://blog.csdn.net/emilycs09/article/details/84929192
来源:CSDN