机器学习——PCA降维

PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最大重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小。由于基于最大重构性的 PCA 其与 LDA(线性判别法)的数学推导有异曲同工之处,所以我只从最大可分性进行证明,而最大重构...
摘要由CSDN通过智能技术生成

PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。

PCA 的数学推导可以从最大可分型最大重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小。由于基于最大重构性的 PCA 其与 LDA(线性判别法)的数学推导有异曲同工之处,所以我只从最大可分性进行证明,而最大重构性将留在介绍 LDA 算法时进行介绍。相应的,也会在介绍 LDA 算法时介绍 PCA 与 LDA 的区别与联系。

如何提取数据的主要特征分量的?接下来开启学习之旅

1. 向量表示与基变换

我们先来介绍些线性代数的基本知识。

1.1 内积

两个向量的 A 和 B 内积我们知道形式是这样的:

                                                \left ( a_{1},a_{2} ,...,a_{n}\right )\cdot \left ( b_{1},b_{2} ,...,b_{n}\right )^{T}=a_{1}\cdota b_{1}+a_{2}\cdota b_{2}+,...,+a_{n}\cdota b_{n}

内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来分析,为了简单起见,我们假设 A 和 B 均为二维向量,则:

                                                  A=\left ( x_{1} \right , y_{1}) ,B=\left ( x_{2} \right , y_{2}) ,A\cdot B=\left | A \right |\left | B \right |cos<A,B>             

其几何表示见下图:

                                 

我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。如果假设 B 的模为 1,即让\left | B \right |=1,那么就变成了:A\cdot B=\left | A \right |\left | B \right |cos<A,B>=\left | A \right |cos<A,B>

也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的矢量长度。

这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

1.2 基

在我们常说的坐标系种,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个矢量,所以可以为负。

所以,对于向量 (3, 2) 来说&#

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值