【机器学习 笔记】主成分分析PCA 原理及计算举例

PCA(主成分分析)是无监督的降维技术,通过最大化线性子空间上投影样本的方差来估计坐标变换。本文介绍了PCA的基本原理,包括找到使数据投影点到原点距离之和最大的直线作为主成分,并通过numpy实现PCA计算,涉及协方差矩阵、特征值和特征向量的求解。
摘要由CSDN通过智能技术生成

PCA:Principal Component Analysis
是一种常用的降维手段。

重点:无监督

不能基于标签,而是基于方差。
方差越大的方向,数据分散得越开。




🌟看了一个教程,内容如下:
以老鼠的基因为例,如果只关注一个基因,那么我们的数据是一维的,可以简单的在坐标轴上展示,如下图。(坐标轴上,越往右数值越大)
从图上我们仍然可以得出:老鼠1、2、3之间的相似性比较高,类似的,老鼠4、5、6之间的相似性比较高。
在这里插入图片描述



如果有两个基因的话,需要一个二维的坐标轴来表示数据:
老鼠1、2、3的基因数据聚集在右上方,老鼠4、5、6的数据聚集在左下方。
在这里插入图片描述



通过分别计算数据在两个轴上投影的均值(中心),得到整体数据的中心。
在这里插入图片描述



移动数据,使中心处于原点位置:(不会改变数据之间的相对位置)
在这里插入图片描述



首先绘制一条过原点的随机线,然后旋转直线,使它尽可能拟合我们的数据。
在这里插入图片描述



找到拟合得最好的直线:
在这里插入图片描述



问题:如何判断拟合得好还是不好呢?
1.将数据投影到直线上
2.测量数据到直线的距离,找到使该距离最小的线
(或者 可以尝试找到使得这些数据的投影点到原点的距离之和最大的线 [勾股定理] )
后者更容易计算,所以比较常用。
在这里插入图片描述


找到了!这条线!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值