文章目录
背景
有很多Sparse PCA 算法运用了收缩算法,但是呢,往往只考虑如何解决,每一次迭代的稀疏化问题,而忽略了收缩算法的选择。
##总括
Hotelling’s deflation
公式
A t = A t − 1 − x t x t T A t − 1 x t x t T A_t = A_{t-1}-x_tx_t^{\mathrm{T}}A_{t-1}x_tx_t^{\mathrm{T}} At=At−1−xtxtTAt−1xtxtT
特点
如果
x
t
x_t
xt是
A
t
−
1
A_{t-1}
At−1的特征向量
那么
A
t
x
t
=
(
A
t
−
1
−
x
t
x
t
T
A
t
−
1
x
t
x
t
T
)
x
t
=
0
A_tx_t = (A_{t-1}-x_tx_t^{\mathrm{T}}A_{t-1}x_tx_t^{\mathrm{T}})x_t =0
Atxt=(At−1−xtxtTAt−1xtxtT)xt=0
所以,
x
t
x_t
xt依然是A_t的特征值为0所对应的特征向量。
但是,如果
x
t
x_t
xt不是特征向量,
A
t
x
t
=
0
A_tx_t=0
Atxt=0这个性质就不存在了,而且,
A
t
A_t
At不一定是半正定矩阵。
Projection deflation
公式
A t = ( I − x t x t T ) A t − 1 ( I − x t x t T ) A_t = (I-x_tx_t^{\mathrm{T}})A_{t-1}(I-x_tx_t^{\mathrm{T}}) At=(I−xtxtT)At−1(I−xtxtT)
特点
半正定
假设
A
t
−
1
A_{t-1}
At−1是半正定的。那么,对于任意的
x
x
x
x
T
A
t
x
=
[
x
T
(
I
−
x
t
x
t
T
)
]
A
t
−
1
[
(
I
−
x
t
x
t
T
)
x
]
≥
0
x^{\mathrm{T}}A_tx = [x^{\mathrm{T}}(I-x_tx_t^{\mathrm{T}})]A_{t-1}[(I-x_tx_t^{\mathrm{T}})x]\geq0
xTAtx=[xT(I−xtxtT)]At−1[(I−xtxtT)x]≥0
另外
A
t
x
t
=
0
A_tx_t=0
Atxt=0
A
t
x
t
=
(
I
−
x
t
x
t
T
)
A
t
−
1
(
I
−
x
t
x
t
T
)
x
t
=
0
A_tx_t=(I-x_tx_t^{\mathrm{T}})A_{t-1}(I-x_tx_t^{\mathrm{T}})x_t=0
Atxt=(I−xtxtT)At−1(I−xtxtT)xt=0
不过, A s x t s > t A_sx_t \quad s>t Asxts>t的值往往不是0
Schur complement deflation
Orthogonalized projection deflation
公式
A
t
=
(
I
−
P
(
t
)
)
A
(
I
−
P
(
t
)
)
A_t = (I-\mathcal{P}^{(t)})A(I-\mathcal{P}^{(t)})
At=(I−P(t))A(I−P(t))
P
(
t
)
\mathcal{P}^{(t)}
P(t)是投影矩阵,满足:
P
(
t
)
T
P
(
t
)
=
P
(
t
)
\mathcal{P}^{(t)\mathrm{T}}\mathcal{P}^{(t)}=\mathcal{P}^{(t)}
P(t)TP(t)=P(t)
P
(
t
)
P
(
t
)
=
P
(
t
)
\mathcal{P}^{(t)}\mathcal{P}^{(t)}=\mathcal{P}^{(t)}
P(t)P(t)=P(t)
若
X
=
[
x
1
,
x
2
,
…
,
x
t
]
=
Q
R
X=[x_1,x_2,\ldots,x_t]=QR
X=[x1,x2,…,xt]=QR
则:
P
(
t
)
=
Q
1...
t
Q
1...
t
T
\mathcal{P}^{(t)}=Q_{1...t}Q_{1...t}^{\mathrm{T}}
P(t)=Q1...tQ1...tT(假设X的秩为t)
其中
Q
1...
t
Q_{1...t}
Q1...t为
Q
Q
Q的前t列。
Orthogonalized Hotelling’s deflation
公式
A
t
=
A
t
−
1
−
q
t
q
t
T
A
t
−
1
q
t
q
t
T
A_t = A_{t-1} - q_tq_t^{\mathrm{T}}A_{t-1}q_tq_t^{\mathrm{T}}
At=At−1−qtqtTAt−1qtqtT
q
t
=
(
I
−
P
(
t
−
1
)
)
x
t
∥
(
I
−
P
(
t
−
1
)
)
x
t
∥
q_t=\frac{(I-\mathcal{P}^{(t-1)})x_t}{\|(I-\mathcal{P}^{(t-1)})x_t\|}
qt=∥(I−P(t−1))xt∥(I−P(t−1))xt
特点
XXX