(《机器学习》完整版系列)第10章 降维与度量学习——10.4 主成分分析的优化目标另一推导(投影点尽可能分开)

直角三角形中,斜边固定,则由勾股定理知两直角边此消彼长。
作坐标变换,部分坐标轴形成超平面,调整变换实现优化目标:超平面上的投影点尽可能分开,即方差最大化。
直观地理解,降维后,样本集中的样本还是易区分,而不是丧失其特点形成不能区分的一砣。

主成分分析的优化目标另一推导

先看一个几何现象:直角三角形中,斜边固定,则由勾股定理知两直角边此消彼长。
设点 P P P和点 X X X l l l的垂足分别为 Q Q Q Y Y Y(垂足随着直线 l l l的变化而变化),连线 P X PX PX l l l的交点为 T T T
现在目标:平面上有点 P P P和点 X X X,作一过原点的直线 l l l,使得点 P P P和点 X X X到直线 l l l的距离之和( ∣ P Q ∣ + ∣ X Y ∣ |PQ|+|XY| PQ+XY)最小化。
两定点 P P P和点 X X X间的距离固定为 ∣ P X ∣ |PX| PX,由“此消彼长”规律知,( ∣ P Q ∣ + ∣ X Y ∣ |PQ|+|XY| PQ+XY)与( ∣ Q T ∣ + ∣ T Y ∣ = ∣ Q Y ∣ |QT|+|TY|=|QY| QT+TY=QY)此消彼长。故目标转化为使 ∣ Q T ∣ + ∣ T Y ∣ = ∣ Q Y ∣ |QT|+|TY|=|QY| QT+TY=QY最大化。即转化为两投影点间距离最大化。

推广到多维中,即,作坐标变换,部分坐标轴形成超平面( d ′ d' d维),调整变换实现优化目标:超平面上的投影点尽可能分开,即方差最大化。

10.3 主成分分析的优化目标(坐标变换的魔力)的所述变换中,在 d d d维新坐标系 { w 1 , w 2 , ⋯   , w d } \{\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_d\} {w1,w2,,wd}下,点 P P P对应的向量为 ( z ^ ; z ′ ) (\hat{\boldsymbol{z}};\boldsymbol{z}') (z^;z),点 Q Q Q对应的向量为 ( z ^ ; 0 ) (\hat{\boldsymbol{z}};\mathbf{0}) (z^;0),则
{ z = ( z ^ ; z ′ ) W = ( W ^ , W 0 ) z = W T x ⇒ ( z ^ ; z ′ ) = ( W ^ T x ; W 0 T x ) ⇒ z ^ = W ^ T x \begin{align} & \begin{cases} \boldsymbol{z}=(\hat{\boldsymbol{z}};\boldsymbol{z}')\notag \\ \mathbf{W}=(\hat{\mathbf{W}},\mathbf{W}_0)\notag \\ \boldsymbol{z}=\mathbf{W}^{\mathrm{T}}\boldsymbol{x}\notag \\ \end{cases} \\ & \Rightarrow (\hat{\boldsymbol{z}};\boldsymbol{z}')=(\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x};\mathbf{W}_0^{\mathrm{T}}\boldsymbol{x})\notag \\ & \Rightarrow \hat{\boldsymbol{z}}=\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x} \tag{10.34} \end{align} z=(z^;z)W=(W^,W0)z=WTx(z^;z)=(W^Tx;W0Tx)z^=W^Tx(10.34)
其中 z ^ = ( z 1 ; z 2 ; ⋯   ; z d ′ ) , z ′ = ( z d ′ + 1 ; z d ′ + 2 ; ⋯   ; z d ) \hat{\boldsymbol{z}}=(z_1;z_2;\cdots;z_{d'}),\boldsymbol{z}'=(z_{d'+1};z_{d'+2};\cdots;z_{d}) z^=(z1;z2;;zd),z=(zd+1;zd+2;;zd)

对数据集中每一个点(样本)都作上述变换,则由式(10.34)及 { x i } i = 1 m \{\boldsymbol{x}_i\}_{i=1}^m {xi}i=1m已经中心化,有
∑ i = 1 m z ^ i = ∑ i = 1 m W ^ T x i = W ^ T ∑ i = 1 m x i = 0 ⇒ E   z ^ i = 0 \begin{align} & \sum_{i=1}^m\hat{\boldsymbol{z}}_i=\sum_{i=1}^m\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x}_i=\hat{\mathbf{W}}^{\mathrm{T}}\sum_{i=1}^m\boldsymbol{x}_i=0\notag \\ & \Rightarrow \mathbb{E}\, \hat{\boldsymbol{z}}_i=0 \tag{10.35} \end{align} i=1mz^i=i=1mW^Txi=W^Ti=1mxi=0Ez^i=0(10.35)
由式(10.34)、式(10.35)有
V a r ( z ^ ) = E   ∣ ∣ z i ^ − E   z i ^ ∣ ∣ 2 = E   ∣ ∣ z i ^ ∣ ∣ 2 (由式(10.35)) = 1 m ∑ i = 1 m z ^ i T z ^ i = 1 m ∑ i = 1 m ( W ^ T x i ) T W ^ T x i \begin{align} \mathrm{Var}(\hat{\boldsymbol{z}}) & =\mathbb{E}\, || \hat{\boldsymbol{z}_i}-\mathbb{E}\, \hat{\boldsymbol{z}_i}||^2\notag \\ & =\mathbb{E}\, || \hat{\boldsymbol{z}_i}||^2\qquad \text{(由式(10.35))}\notag \\ & =\frac{1}{m}\sum_{i=1}^m\hat{\boldsymbol{z}}_i^{\mathrm{T}}\hat{\boldsymbol{z}}_i\notag \\ & = \frac{1}{m}\sum_{i=1}^m(\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x}_i)^{\mathrm{T}}\hat{\mathbf{W}}^{\mathrm{T}}\boldsymbol{x}_i \tag{10.36} \end{align} Var(z^)=E∣∣zi^Ezi^2=E∣∣zi^2(由式(10.35)=m1i=1mz^iTz^i=m1i=1m(W^Txi)TW^Txi(10.36)

再照参10.3 主成分分析的优化目标(坐标变换的魔力)引入迹trace处理,最大化式(10.36),即10.3 主成分分析的优化目标(坐标变换的魔力)的优化目标式(10.33),也即【西瓜书式(10.16)】的优化目标。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:10.3 主成分分析的优化目标(坐标变换的魔力)
下一篇:10.5 主成分分析的目标求解(“丢掉不重要属性”是错误的)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值