pca主成分分析结果解释_StatQuest 主成分分析(PCA)

PCA(主成分分析)是一种统计方法,用于将高维数据简化为低维表示。通过最大化从数据点到原点的投影距离,PCA确定最佳拟合线(主成分),并依此构建二维或三维PCA图。PCA适用于数据可视化、降维和特征选择。在标准化和中心化数据后,PCA可以帮助识别数据的主要变化方向,并通过树形图(Scree Plot)评估每个主成分解释的方差比例。
摘要由CSDN通过智能技术生成

微信公众号:生信小知识
关注可了解更多的教程及单细胞知识。问题或建议,请公众号留言;

StatQuest - 主成分分析(PCA)

https://www.bilibili.com/video/av54898361

内容目录

前言一维二维三维PCA原理PC1PC2画PCAScree Plot——树形图PCA一些TipsScaling (标准化)数据例子centering (中心化)数据期望主成分数目

前言

一维

让我们从一组简单的数据开始,我们在 6 只不同的老鼠身上检测了基因 1 :

263e03e9c806eacf5858340c06cb7ca3.png

我们只测量 1 个基因, 我们可以把数据标在一条数字线上,小鼠 1, 2 和 3 具有相对较高的值,小鼠 4, 5 和 6 具有相对较低的值。尽管这是一个简单的图表,但它显示出老鼠 1, 2 和 3 彼此之间的相似性比它们与小鼠 4, 5 和 6的相似性更强。

二维

如果我们测量了 2 个基因, 我们就可以在二维 x-y 图上绘制对应数据:

6332e179176b111d3b9ee1d873ef1930.png

我们可以看到老鼠 1, 2 和 3 聚集在右边,小鼠 4, 5 和 6 在左下侧聚集。

三维

如果我们测量了 3 个基因, 我们会在图中添加另一个轴, 使它看起来像 3-D, 即三维的:

945e5ffaf158e9737e19b08b9a9be38f.png

同理可以得到相似的结论。

如果我们测量了 4 个基因, 然而我们并不能再把所有数据绘制在图上,因为 4 个基因需要 4 个维度。

所以我们将讨论主成分分析(PCA)如何利用 4 个或更多的基因测量结果,4 个或更多维度的数据来绘制二维 PCA 图

PCA原理

为了了解 PCA 的作用和工作原理,让我们回到只有 2 个基因的数据:

我们分别计算基因 1 和基因 2 的均值,利用平均值, 我们可以计算出数据的中心(图中蓝色的×)

ce69ef62fc618eab328cc975d992c1f7.png

现在我们将移动数据, 使中心位于图中原点 (0, 0) 上:

注: 整体移动数据并不会改变数据点之间的相对位置

ec7e76fcc82736127cf3d5316b69aeb6.png

现在数据以原点为中心,我们可以试着拟合一条线上去:

我们需要了解 PCA 如何决定合适与否,我们首先随机画一条来穿过原点

9139a508219ebd01e7d1b8dc79e24225.png

为了量化这条线与数据的拟合程度, PCA 将数据投影到线上面,然后它可以测量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值