【机器学习笔记】主成分分析PCA 原理及计算举例

最新推荐文章于 2024-07-10 02:17:08 发布

刘芋儿

最新推荐文章于 2024-07-10 02:17:08 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43514766/article/details/115977027

版权

PCA（主成分分析）是无监督的降维技术，通过最大化线性子空间上投影样本的方差来估计坐标变换。本文介绍了PCA的基本原理，包括找到使数据投影点到原点距离之和最大的直线作为主成分，并通过numpy实现PCA计算，涉及协方差矩阵、特征值和特征向量的求解。

摘要由CSDN通过智能技术生成

PCA：Principal Component Analysis
是一种常用的降维手段。

重点：无监督

不能基于标签，而是基于方差。
方差越大的方向，数据分散得越开。

🌟看了一个教程，内容如下：
以老鼠的基因为例，如果只关注一个基因，那么我们的数据是一维的，可以简单的在坐标轴上展示，如下图。（坐标轴上，越往右数值越大）
从图上我们仍然可以得出：老鼠1、2、3之间的相似性比较高，类似的，老鼠4、5、6之间的相似性比较高。
在这里插入图片描述

如果有两个基因的话，需要一个二维的坐标轴来表示数据：
老鼠1、2、3的基因数据聚集在右上方，老鼠4、5、6的数据聚集在左下方。

通过分别计算数据在两个轴上投影的均值（中心），得到整体数据的中心。
在这里插入图片描述

移动数据，使中心处于原点位置：（不会改变数据之间的相对位置）

首先绘制一条过原点的随机线，然后旋转直线，使它尽可能拟合我们的数据。

找到拟合得最好的直线：

问题：如何判断拟合得好还是不好呢？
1.将数据投影到直线上
2.测量数据到直线的距离，找到使该距离最小的线
（或者可以尝试找到使得这些数据的投影点到原点的距离之和最大的线 [勾股定理] ）
后者更容易计算，所以比较常用。
在这里插入图片描述

找到了！这条线！

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习笔记】主成分分析PCA 原理及计算举例

PCA：Principal Component Analysis是一种常用的降维手段。重点：无监督不能基于标签，而是基于方差。方差越大的方向，数据分散得越开。????看了一个教程，内容如下：以老鼠的基因为例，如果只关注一个基因，那么我们的数据是一维的，可以简单的在坐标轴上展示，如下图。（坐标轴上，越往右数值越大）从图上我们仍然可以得出：老鼠1、2、3之间的相似性比较高，类似的，老鼠4、5、6之间的相似性比较高。如果有两个基因的话，需要一个二维的坐标轴来表示数据：老鼠1、2、3的基因数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。