(《机器学习》完整版系列)第10章 降维与度量学习——10.3 主成分分析的优化目标(坐标变换的魔力)

本文介绍了主成分分析(PCA)的数学背景,通过线性变换理论探讨了降维的过程。首先,解释了三维空间中点的投影与坐标变换的概念,然后引入矩阵变换,特别是标准正交基下的坐标变换。通过这些理论,推导出了主成分分析的优化目标,即最小化数据点到其低维投影之间的距离平方和,同时保持新坐标系的正交性。最终,得到了PCA的优化问题,即最小化迹(矩阵的对角元素之和)与约束条件是新基的转置与自身乘积为单位矩阵。
摘要由CSDN通过智能技术生成

MDS算法并未限定变换的特点,当然,对线性变换也有效。 由于线性变换的特殊性,可以充分利用线性变换理论进行降维。由此得到主成分分析法,本篇我们从数学角度推导出主成分分析的优化目标。
你在数学中学习了坐标变换,这里就是它的应用,希望你能找到感觉。

主成分分析的优化目标

10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)的MDS算法并未限定变换的特点,当然,对线性变换也有效。 由于线性变换的特殊性,可以充分利用线性变换理论进行降维。

我们先回顾两点几何知识:

(1)投影于坐标平面:三维坐标系 O  ⁣ −  ⁣ x y z O\!-\!xyz Oxyz中的点 P ( x , y , z ) P(x,y,z) P(x,y,z),将其坐标 ( x , y , z ) (x,y,z) (x,y,z)截断为 ( x , y ) (x,y) (x,y),则点 Q ( x , y ) Q(x,y) Q(x,y)为点 P ( x , y , z ) P(x,y,z) P(x,y,z) o − x y o-xy oxy上的投影,这时点 Q Q Q有两种表示:在平面 o  ⁣ −  ⁣ x y o\!-\!xy oxy中为 Q ( x , y ) Q(x,y) Q(x,y)、在三维空间 O  ⁣ −  ⁣ x y z O\!-\!xyz Oxyz中的点 Q ( x , y , 0 ) Q(x,y,0) Q(x,y,0)。 推广:高维空间中的点 P P P d d d维)的坐标截断后,得到点 Q Q Q d ′ d' d维, d ′ ≪ d d' \ll d dd),则点 Q Q Q有两种表示:在超平面中 Q Q Q d ′ d' d维)、在高维空间中的点 Q Q Q d d d维)。 由此有:
P :   ( z 1 , z 2 , ⋯   , z d ′ , z d ′ + 1 , ⋯   , z d ) Q :   ( z 1 , z 2 , ⋯   , z d ′ ) Q :   ( z 1 , z 2 , ⋯   , z d ′ , 0 , ⋯   , 0 ) \begin{align} & P:\ (z_1,z_2,\cdots,z_{d'},z_{d'+1},\cdots,z_d)\tag{10.18} \\ & Q:\ (z_1,z_2,\cdots,z_{d'})\tag{10.19} \\ & Q:\ (z_1,z_2,\cdots,z_{d'},0,\cdots,0)\tag{10.20} \end{align} P: (z1,z2,,zd,zd+1,,zd)Q: (z1,z2,,zd)Q: (z1,z2,,zd,0,,0)(10.18)(10.19)(10.20)
即高维空间中的点投影于坐标平面(超平面)相当于截位,产生降维效果。

(2)矩阵变换:标准世界坐标系是指基向量为全部的“独1”向量,如,三维空间中为: (1,0,0),\ (0,1,0),\ (0,0,1), d d d维标准世界坐标系是维一的(故冠以“世界”)。 在 d d d维标准世界坐标系下,设有一组 d d d维线性无关向量组构成一个矩阵: W = ( w 1 , w 2 , ⋯   , w d ) \mathbf{W}=(\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d) W=(w1,w2,,wd),有互逆的两矩阵变换
z = W T x x = [ W T ] − 1 z \begin{align} \boldsymbol{z}=\mathbf{W}^{\mathrm{T}}\boldsymbol{x}\tag{10.21} \\ \boldsymbol{x}=[\mathbf{W}^{\mathrm{T}}]^{-1}\boldsymbol{z}\tag{10.22} \end{align} z=WTxx=[WT]1z(10.21)(10.22)

( w 1 , w 2 , ⋯   , w d ) (\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d) (w1,w2,,wd)为标准正交基,则式(10.22)变为
x = W z , ( W T W = I ) \begin{align} & \boldsymbol{x}=\mathbf{W}\boldsymbol{z},\quad (\mathbf{W}^{\mathrm{T}}\mathbf{W}=\mathbf{I})\tag{10.23} \end{align} x=Wz,(WTW=I)(10.23)

上述矩阵变换有类似于“相对运动”,其关系的两个视角:

(i)视为点变换(在同一坐标系下两点的坐标不同): d d d维标准世界坐标系下的点 P P P的坐标系数由向量 x \boldsymbol{x} x表达(注:将点视为原点至该点的向量,则该向量可表达成基向量的线性组合,系数即为坐标,故将坐标称为坐标系数),而变换后的点 P ′ P' P的坐标系数由向量 z \boldsymbol{z} z表达。 二者的关系为上述变换式。

(ii)视为坐标变换(同一个点在两个不同坐标系中的不同坐标): d d d维标准世界坐标系中点 P :   x P:\,\boldsymbol{x} P:x,若将坐标系切换成 { w 1 , w 2 , ⋯   , w d } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d\} {w1,w2,,wd},则由式(10.23)知,点 P P P的坐标系数由向量 z \boldsymbol{z} z表达。

P P P d d d维标准世界坐标系和坐标系 { w 1 , w 2 , ⋯   , w d } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d\} {w1,w2,,wd}中,坐标系数分别为向量 P :   x P:\,\boldsymbol{x} P:x P :   z P:\, \boldsymbol{z} P:z,它们的关系式由式(10.23)矩阵变换表达。

将点 P P P投影到新坐标系的坐标(超)平面 { w 1 , w 2 , ⋯   , w d ′ } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_{d'}\} {w1,w2,,wd}中得到点 Q Q Q(即点 P P P的投影为点 Q Q Q),则针对三个坐标系点 Q Q Q有三个坐标系数的向量表达:

  • d d d维新坐标系 { w 1 , w 2 , ⋯   , w d } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d\} {w1,w2,,wd}(对应于标准正交基阵 W \mathbf{W} W)中,它为 d d d维:
    Q d = ( z 1 ; z 2 ; ⋯   ; z d ′ ; 0 ; ⋯   ; 0 ) = ( z ^ ; 0 ) Q_d=(z_1;z_2;\cdots;z_{d'};0;\cdots;0)=(\hat{\boldsymbol{z}};\boldsymbol{0}) Qd=(z1;z2;;zd;0;;0)=(z^;0)
  • d ′ d' d维超平面坐标系 { w 1 , w 2 , ⋯   , w d ′ } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_{d'} \} {w1,w2,,wd}(对应于矩阵 W ^ \hat{\mathbf{W}} W^)中,它为
    Q d ′ = ( z 1 ; z 2 ; ⋯   ; z d ′ ) = ( z ^ ) Q_{d'}=(z_1;z_2;\cdots;z_{d'})=(\hat{\boldsymbol{z}}) Qd=(z1;z2;;zd)=(z^)
    显然, Q d ′ Q_{d'} Qd P :   z = ( z ^ ; z ′ ) P:\, \boldsymbol{z}=(\hat{\boldsymbol{z}};\boldsymbol{z}') P:z=(z^;z)的截断,起到了降维作用。
  • d d d维原标准世界坐标系下,设为 Q :   x ^ Q:\, \hat{\boldsymbol{x}} Q:x^

我们将点在各坐标中坐标列于表10.1中,其中, W ^ = ( w 1 , w 2 , ⋯   , w d ′ ) \hat{\mathbf{W}} =(\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_{d'}) W^=(w1,w2,,wd) d × d ′ d\times d' d×d矩阵, W \mathbf{W} W d × d d\times d d×d矩阵,它分为两部分: W = ( W ^ , W 0 ) \mathbf{W}=(\hat{\mathbf{W}},\mathbf{W}_0) W=(W^,W0)。将其代入式(10.23)的条件项中可得如下式(10.28)。

式(10.23)反映了同一点在标准世界坐标系中坐标和在新坐标系中坐标的关系式,
若已知 z \boldsymbol{z} z,则由式(10.23)可重构出 x ^ \hat{\boldsymbol{x}} x^
x ^ = W Q d = ( W ^ , W 0 ) ( z ^ ; 0 ) = ( W ^ z ^ + W 0 ⋅ 0 ) = ( W ^ z ^ + 0 ⋅ z ′ ) = ( W ^ , 0 ) ( z ^ ; z ′ ) = ( W ^ , 0 ) z \begin{align} \hat{\boldsymbol{x}} & =\mathbf{W}Q_d\notag \\ & =(\hat{\mathbf{W}},\mathbf{W}_0)(\hat{\boldsymbol{z}};\boldsymbol{0})\notag \\ & =(\hat{\mathbf{W}}\hat{\boldsymbol{z}}+\mathbf{W}_0\cdot \boldsymbol{0})\notag \\ & =(\hat{\mathbf{W}}\hat{\boldsymbol{z}}+\mathbf{0}\cdot \boldsymbol{z}')\notag \\ & =(\hat{\mathbf{W}},\mathbf{0})(\hat{\boldsymbol{z}};\boldsymbol{z}')\notag \\ & =(\hat{\mathbf{W}},\mathbf{0})\boldsymbol{z} \tag{10.25} \end{align} x^=WQd=(W^,W0)(z^;0)=(W^z^+W00)=(W^z^+0z)=(W^,0)(z^;z)=(W^,0)z(10.25)

对于 W ^ \hat{\mathbf{W}} W^有关系式
( W ^ , 0 ) W T = ( W ^ , 0 ) ( W ^ , W 0 ) T = ( W ^ , 0 ) ( W ^ T ; W 0 T ) = W ^ W ^ T + 0 = W ^ W ^ T W ( W ^ , 0 ) T = W ^ W ^ T W ^ T W ^ = I d ′ \begin{align} (\hat{\mathbf{W}},\mathbf{0})\mathbf{W}^{\mathrm{T}} & =(\hat{\mathbf{W}},\mathbf{0})(\hat{\mathbf{W}},\mathbf{W}_0)^{\mathrm{T}}\notag \\ & =(\hat{\mathbf{W}},\mathbf{0})(\hat{\mathbf{W}}^{\mathrm{T}};\mathbf{W}_0^{\mathrm{T}})\notag \\ & =\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}}+\mathbf{0}\notag \\ & =\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}} \tag{10.26} \\ \mathbf{W}(\hat{\mathbf{W}},\mathbf{0})^{\mathrm{T}} & =\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}} \tag{10.27} \\ \hat{\mathbf{W}}^{\mathrm{T}}\hat{\mathbf{W}}=\mathbf{I}_{d'} \tag{10.28} \end{align} (W^,0)WTW(W^,0)TW^TW^=Id=(W^,0)(W^,W0)T=(W^,0)(W^T;W0T)=W^W^T+0=W^W^T=W^W^T(10.26)(10.27)(10.28)
其中, W ^ W ^ T \hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}} W^W^T d × d d\times d d×d矩阵, I d ′ \mathbf{I}_{d'} Id d ′ × d ′ d'\times d' d×d的单位矩阵。

进而有
( W ^ W ^ T − I d ) T ( W ^ W ^ T − I d )   = ( W ^ W ^ T W ^ W ^ T − 2 W ^ W ^ T + I d )   = ( W ^ I d ′ W ^ T − 2 W ^ W ^ T + I d ) (由式(10.28))   = − W ^ W ^ T + I d \begin{align} & (\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}-\mathbf{I}_{d})^{\mathrm{T}}(\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}}-\mathbf{I}_{d})\notag \\ & \ =(\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}-2\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}+\mathbf{I}_{d})\notag \\ & \ =(\hat{\mathbf{W}}\mathbf{I}_{d'}{\hat{\mathbf{W}}}^{\mathrm{T}}-2\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}+\mathbf{I}_{d})\quad \text{(由式(10.28))}\notag \\ & \ =-\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}+\mathbf{I}_{d} \tag{10.29} \end{align} (W^W^TId)T(W^W^TId) =(W^W^TW^W^T2W^W^T+Id) =(W^IdW^T2W^W^T+Id)(由式(10.28) =W^W^T+Id(10.29)

3.1 线性回归中我们讨论了“最小二乘法”,与其类似,我们期望数据集中的点到超平面的距离(平方)和最小,点 P P P到超平面的距离即为它与其投影间的距离,由上述讨论知,即为 ∣ P Q ∣ |PQ| PQ

下面研究点 P P P与点 Q Q Q间的距离(注:理论上是考虑距离(也即“以点 Q Q Q代替点 P P P~”所产生的误差),为便于计算,实际上是取距离平方)。

距离也即误差,故有
∣ ∣ x ^ − x ∣ ∣ 2 2 = ∣ ∣ ( W ^ , 0 ) z − x ∣ ∣ 2 2 (由式(10.25)) = ∣ ∣ ( W ^ , 0 ) W T x − x ∣ ∣ 2 2 (由式(10.21)) = ∣ ∣ W ^ W ^ T x − x ∣ ∣ 2 2 (由式(10.26)) = ∣ ∣ ( W ^ W ^ T − I d ) x ∣ ∣ 2 2 = x T ( W ^ W ^ T − I d ) T ( W ^ W ^ T − I d ) x = x T ( − W ^ W ^ T + I d ) x (由式(10.29)) = − x T W ^ W ^ T x + x T x = − t r ( x T W ^ W ^ T x ) + x T x (下式由【西瓜书附录式(A.8)】) = − t r ( W ^ T x x T W ^ ) + x T x \begin{align} ||\hat{\boldsymbol{x}}-\boldsymbol{x}||_2^2 & =||(\hat{\mathbf{W}},\mathbf{0})\boldsymbol{z}-\boldsymbol{x}||_2^2\quad \text{(由式(10.25))}\notag \\ & =||(\hat{\mathbf{W}},\mathbf{0}){\mathbf{W}}^{\mathrm{T}}\boldsymbol{x}-\boldsymbol{x}||_2^2\quad \text{(由式(10.21))}\notag \\ & =||\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x}-\boldsymbol{x}||_2^2\quad \text{(由式(10.26))}\notag \\ & =||(\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}}-\mathbf{I}_{d})\boldsymbol{x}||_2^2\notag \\ & =\boldsymbol{x}^{\mathrm{T}}(\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}-\mathbf{I}_{d})^{\mathrm{T}}(\hat{\mathbf{W}}\hat{\mathbf{W}}^{\mathrm{T}}-\mathbf{I}_{d})\boldsymbol{x}\notag \\ & =\boldsymbol{x}^{\mathrm{T}}(-\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}+\mathbf{I}_{d})\boldsymbol{x}\quad \text{(由式(10.29))}\notag \\ & =-{\boldsymbol{x}}^{\mathrm{T}}\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}\boldsymbol{x}+\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}\notag \\ & =-\mathrm{tr}({\boldsymbol{x}}^{\mathrm{T}}\hat{\mathbf{W}}{\hat{\mathbf{W}}}^{\mathrm{T}}\boldsymbol{x})+\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}\qquad \text{(下式由【西瓜书附录式(A.8)】)}\notag \\ & =-\mathrm{tr}({\hat{\mathbf{W}}}^{\mathrm{T}}\boldsymbol{x}{\boldsymbol{x}}^{\mathrm{T}}\hat{\mathbf{W}})+\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x} \tag{10.30} \end{align} ∣∣x^x22=∣∣(W^,0)zx22(由式(10.25)=∣∣(W^,0)WTxx22(由式(10.21)=∣∣W^W^Txx22(由式(10.26)=∣∣(W^W^TId)x22=xT(W^W^TId)T(W^W^TId)x=xT(W^W^T+Id)x(由式(10.29)=xTW^W^Tx+xTx=tr(xTW^W^Tx)+xTx(下式由【西瓜书附录式(A.8)】)=tr(W^TxxTW^)+xTx(10.30)

设样本集已进行了中心化,即 ∑ i = 1 m x i = 0 \sum_{i=1}^m\boldsymbol{x}_i=0 i=1mxi=0,对每个样本点 x i \boldsymbol{x}_i xi都用上述方法得到一对点( P i P_i Pi Q i Q_i Qi),由式(10.30)得到该样本对应的距离,对所有距离(也即误差)求和,则有
∑ i = 1 m ∣ ∣ x i ^ − x i ∣ ∣ 2 2 = ∑ i = 1 m [ − t r ( W ^ T x i x i T W ^ ) + x i T x i ] = − t r ( ∑ i = 1 m W ^ T ( x i x i T ) W ^ ) + ∑ i = 1 m x i T x i = − t r ( W ^ T ∑ i = 1 m ( x i x i T ) W ^ ) + c o n s t = − t r ( W ^ T X X T W ^ ) + c o n s t \begin{align} \sum_{i=1}^m\big|\big|\hat{\boldsymbol{x}_i}-\boldsymbol{x}_i\big|\big|_2^2 & =\sum_{i=1}^m[-\mathrm{tr}({\hat{\mathbf{W}}}^{\mathrm{T}}\boldsymbol{x}_i{\boldsymbol{x}_i}^{\mathrm{T}}\hat{\mathbf{W}})+\boldsymbol{x}_i^{\mathrm{T}}\boldsymbol{x}_i]\notag \\ & =-\mathrm{tr}(\sum_{i=1}^m{\hat{\mathbf{W}}}^{\mathrm{T}}(\boldsymbol{x}_i{\boldsymbol{x}_i}^{\mathrm{T}})\hat{\mathbf{W}})+\sum_{i=1}^m\boldsymbol{x}_i^{\mathrm{T}}\boldsymbol{x}_i\tag{10.31} \\ & =-\mathrm{tr}({\hat{\mathbf{W}}}^{\mathrm{T}}\sum_{i=1}^m(\boldsymbol{x}_i{\boldsymbol{x}_i}^{\mathrm{T}})\hat{\mathbf{W}})+\mathrm{const}\notag \\ & =-\mathrm{tr}(\hat{\mathbf{W}}^{\mathrm{T}}\mathbf{X}\mathbf{X}^{\mathrm{T}}\hat{\mathbf{W}})+\mathrm{const} \tag{10.32} \end{align} i=1m xi^xi 22=i=1m[tr(W^TxixiTW^)+xiTxi]=tr(i=1mW^T(xixiT)W^)+i=1mxiTxi=tr(W^Ti=1m(xixiT)W^)+const=tr(W^TXXTW^)+const(10.31)(10.32)
其中, X = ( x 1 , x 2 , ⋯   , x m ) \mathbf{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m) X=(x1,x2,,xm) d × m d\times m d×m矩阵,因训练集 x i i = 1 m {\boldsymbol{x}_i}_{i=1}^m xii=1m已定,故式(10.31)的第二项 ∑ i = 1 m x i T x i \sum_{i=1}^m\boldsymbol{x}_i^{\mathrm{T}}\boldsymbol{x}_i i=1mxiTxi为常数(记为 c o n s t \mathrm{const} const),第一项中 X X T \mathbf{X}\mathbf{X}^{\mathrm{T}} XXT为常数矩阵,但它不能提出来(没有交换律)。

由式(10.32)及7.1 贝叶斯决策论中的式(7.6),即得主成分分析的优化目标,
而式(10.28)为约束条件,即
min ⁡ W ^   − t r ( W ^ T X X T W ^ ) s . t . W ^ T W ^ = I d ′ \begin{align} \mathop{\min}\limits_{\hat{\mathbf{W}}} & \ -\mathrm{tr}(\hat{\mathbf{W}}^{\mathrm{T}}\mathbf{X}\mathbf{X}^{\mathrm{T}}\hat{\mathbf{W}}) \tag{10.33} \\ \mathrm{s.t.} & \quad \hat{\mathbf{W}}^{\mathrm{T}}\hat{\mathbf{W}}=\mathbf{I}_{d'}\notag \end{align} W^mins.t. tr(W^TXXTW^)W^TW^=Id(10.33)
即【西瓜书式(10.16)】的优化目标。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)
下一篇:10.4 主成分分析的优化目标另一推导(投影点尽可能分开)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值