【机器学习】五、主成分分析原理

在这里插入图片描述
主成分分析(Principal Component Analysis),简称PCA,是机器学习中一种常用来进行数据降维操作的方法。PCA通过矩阵变换,将高维数据变换到低维。本文主要分享PCA的数学原理,帮助大家了解PCA降维的理论基础。码字不易,喜欢请点赞!!!

一、PCA简介
下图是一个二维的手枪图片,我们知道手枪在现实中是三维的,那为什么下面这张手枪图是二维的我们也能认出来了?这是因为虽然这张图是二维的,但是图片保留了手枪的主要特征,比如抢管、扣手等。
在这里插入图片描述
如果我们换个角度拍,比如从上向下俯视拍,你可能会认为是跟小木棍。这个原因就是我们在降低维度的过程中没有最大程度的保留他的特征,使得你无法区分。那PCA当然不希望降维之后,数据的特征完全消失,而是希望在降低维度的同时,能最大的保留数据的特征(也就是最大化的保留数据之间的差异)。

比如,我们在学校有的人有主修(Major)和辅修(Minor)专业,这个数据集是个二维的,如果想降到一维,如下图,可能会发现,往 F e a t u r e X 1 Feature X_1 FeatureX1方向投影之后数据的差异会大于往 F e a t u r e X 2 Feature X_2 FeatureX2方向投影,因此降维操作更好的选择是往 F e a t u r e X 1 Feature X_1 FeatureX1方向投影。
在这里插入图片描述
那这个时候又会出现一个问题,如下左图,你会发现数据往 X 1 X_1 X1方向投影和往 X 2 X_2 X2方向投影都不能最大化的得到数据差异,更好的方法就是采用右图中的新坐标 Y 1 Y_1 Y1 Y 2 Y_2 Y2,往这个新的坐标系投影得到的结果就能很清楚的知道,我们应该选择往 Y 1 Y_1 Y1方向投影,从而达到降维和保留数据差异的结果。
PS:这里坐标轴的更换就是线性代数里面的基变换。
在这里插入图片描述
更加好的一点是,在重新选择坐标系之后,还可以进行轴旋转操作,经过这两步操作之后,我们将数据之间的相关性消除了,这里又变成了特征选择了。
在这里插入图片描述
二、线性代数基础
这里主要讲线性代数的四个知识点,一个是内积(投影),一个是基变换、以及特征分解和奇异值分解。

  1. 内积
    假设我们有两个向量 a = ( a 1 , a 2 , . . . , a n ) T a=(a_1,a_2,...,a_n)^T a=(a1,a2,...,an)T b = ( b 1 , b 2 , . . . , b n ) T b=(b_1,b_2,...,b_n)^T b=(b1,b2,...,bn)T,那么a和b的内积为:
    a ⋅ b = ( a 1 , a 2 , . . . , a n ) T ⋅ ( b 1 , b 2 , . . . , b n ) T = a 1 b 1 + a 2 b 2 + . . . + a n b n a·b = (a_1,a_2,...,a_n)^T·(b_1,b_2,...,b_n)^T=a_1b_1+a_2b_2+...+a_nb_n ab=(a1,a2,...,an)T(b1,b2,...,

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值