对于两组数据 X ∈ R m × p , Y ∈ R m × q \mathbf{X} \in \mathbb{R}^{m\times p},\mathbf{Y} \in \mathbb{R}^{m\times q } X∈Rm×p,Y∈Rm×q,常见的降维方法有
P
C
A
:
Var
(
X
w
)
R
R
R
:
Var
(
X
w
)
⋅
Corr
2
(
X
w
,
Y
v
)
⋅
Var
(
Y
v
)
P
L
S
:
Var
(
X
w
)
⋅
Corr
2
(
X
w
,
Y
v
)
⋅
Var
(
Y
v
)
=
Cov
2
(
X
w
,
Y
v
)
C
C
A
:
Var
(
X
w
)
⋅
Corr
2
(
X
w
,
Y
v
)
\mathrm{PCA:}\operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}\phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}\operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}\phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv})
PCA:Var(Xw)RRR:Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)PLS:Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)⋅Corr2(Xw,Yv)
上述都是通过减秩降维的办法,从
X
,
Y
X,Y
X,Y中提取数据。不同之处在于提取注重的方向不同,但只要提取的维度够多,在理论上,这些算法效果和OLS没有什么差别
RRR: Reduce-Rank Regression的解释
OLS目标如下
L
=
∥
Y
−
X
B
∥
2
L=\|\mathbf Y-\mathbf X\mathbf B\|^2
L=∥Y−XB∥2
对系数矩阵
B
B
B进行约束,希望它的秩越小越好,同时又不希望降低其拟合精度
L
=
∥
Y
−
X
B
^
O
L
S
∥
2
+
∥
X
B
^
O
L
S
−
X
B
∥
2
L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2
第一项是常数,可以忽略。优化第二项是一个经典的低秩逼近。网上资料以及文献上有一些关于RRR令人费解的定义,这里就略过了。化简上式得到
∥
X
B
^
O
L
S
−
X
B
∥
2
=
∥
Y
^
O
L
S
−
Y
^
R
R
R
∥
2
\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2=\|\hat{\mathbf Y}_\mathrm{OLS}-\mathbf{\hat{Y}_{RRR}} \|^2
∥XB^OLS−XB∥2=∥Y^OLS−Y^RRR∥2
令
Y
^
O
L
S
=
U
Σ
V
T
\hat{\mathbf Y}_\mathrm{OLS}=\mathbf U\Sigma\mathbf V^T
Y^OLS=UΣVT
假定秩限制为r, 根据Eckart-young定理得到
Y
^
R
R
R
=
Y
^
O
L
S
V
r
V
r
T
=
X
B
^
O
L
S
V
r
V
r
T
⇒
\mathbf{\hat{Y}_{RRR}}=\hat{\mathbf Y}_\mathrm{OLS}\mathbf V_r\mathbf V_r^T=\mathbf X\hat{\mathbf B}_\mathrm{OLS}\mathbf V_r\mathbf V_r^T\Rightarrow
Y^RRR=Y^OLSVrVrT=XB^OLSVrVrT⇒
B
^
R
R
R
=
B
^
O
L
S
V
r
V
r
⊤
\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf V_r\mathbf V_r^\top
B^RRR=B^OLSVrVr⊤
从直觉上,RRR SVD分解 B ^ O L S \hat{\mathbf B}_\mathrm{OLS} B^OLS矩阵,前面几个特征向量代表着和X与Y最有相关的方向。从这一点看RRR和CCA异曲同工,不知道结果是否是一样的,没有验证过。
PS: 冲着1024,为赋新诗强说愁
参考
https://stats.stackexchange.com/questions/152517/what-is-reduced-rank-regression-all-about