浅显易懂的PCA(主成分分析),没有繁杂的矩阵公式

第一步

给出一个二维数据:
在这里插入图片描述
通过计算各点到轴的平均长度,定位原点,下图中,蓝色的X既是后面要用到的原点。
在这里插入图片描述

第二步,寻找拟合线

在原点处随意绘制一条直线,然后计算各点投影到该线上的距离的平方和,然后不断旋转该线,直至投影的平方和最大为止,如图,d1,d2分别是投影后的距离长度。此处把这条拟合线称为PC1。
在这里插入图片描述

第三步,通过PC1的斜率来计算特征向量和特征值

在PC1上单位化后的向量就称为特征向量,如下图,PC1的斜率为0.25,即黑色的41两个向量可以组成PC1上的向量,那也就意味着数据大部分是沿着Gene1(X轴)分布的,由勾股定理可得其向量的模(即长度)为4.12,将三个向量(黑色的41和组合向量)分别除以4.12,那么就有X轴上的向量模为0.97,Y轴上的模为0.242,特征向量就是由0.97个Gene1和0.24个Gene2组合而成。特征值就是投影平方的距离和,就是上面所说的d1+…d6。
在这里插入图片描述

第四步,求得PC2,再结合PC1求得主成分(三维就要求PC1,PC2,PC3,以此类推)

下图蓝色的线即为PC2,注意,除了PC1的角度可以随意初始化外,其他的拟合线都要垂直于之前的拟合线,在此处就是PC2要垂直于PC1。由PC2得知,PC2的特征向量由0.97个Gene2和-0.242个Gene1组成,特征向量也是各点到PC2投影的平方和。
在这里插入图片描述

求得差异值,找出最能代表数据的一条或多条拟合线

这一步需要将数据重新画在PC1和PC2上。
在这里插入图片描述
差异值就是特征值/(样本值-1)。假设此处PC1的差异值为15,PC2的差异值为3,那么PC总差异为18,就有PC1占总差异的83%,PC2占总差异的17%。
在这里插入图片描述

了解二维相关术语和公式的讲解后,就可以进行三维的PCA了,不要跳着看,要理解之前的知识

直接上图,下图的各PC的差异值占总差异的比例如下所示,PC1和PC2的差异值占总差异的94%,那就代表这两条线组成的二维平面就可以解释数据94%的差异。在这里插入图片描述
在这里插入图片描述
通过各数据点在PC1和PC2的投影可以绘得一个二维平面,即降低了数据的维数,有很好的表示了数值之间的差异性(这就是使用PCA会造成一部分数据丢失的原因,因为他的工作是舍去信息中差异性最小的部分)
在这里插入图片描述
在这里插入图片描述
这仅是我学习后的一些见解,想要具体的了解该知识的来源,你们可以去B站看这个视频,我把链接贴在这https://www.bilibili.com/video/BV1C7411A7bj?from=search&seid=11673028245784609430
睡觉睡觉,狗命要紧

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值