微信公众号:生信小知识
关注可了解更多的教程及单细胞知识。问题或建议,请公众号留言;
StatQuest - 主成分分析(PCA)
https://www.bilibili.com/video/av54898361
内容目录
前言一维二维三维PCA原理PC1PC2画PCAScree Plot——树形图PCA一些TipsScaling (标准化)数据例子centering (中心化)数据期望主成分数目
前言
一维
让我们从一组简单的数据开始,我们在 6 只不同的老鼠身上检测了基因 1 :
我们只测量 1 个基因, 我们可以把数据标在一条数字线上,小鼠 1, 2 和 3 具有相对较高的值,小鼠 4, 5 和 6 具有相对较低的值。尽管这是一个简单的图表,但它显示出老鼠 1, 2 和 3 彼此之间的相似性比它们与小鼠 4, 5 和 6的相似性更强。
二维
如果我们测量了 2 个基因, 我们就可以在二维 x-y 图上绘制对应数据:
我们可以看到老鼠 1, 2 和 3 聚集在右边,小鼠 4, 5 和 6 在左下侧聚集。
三维
如果我们测量了 3 个基因, 我们会在图中添加另一个轴, 使它看起来像 3-D, 即三维的:
同理可以得到相似的结论。
如果我们测量了 4 个基因, 然而我们并不能再把所有数据绘制在图上,因为 4 个基因需要 4 个维度。
所以我们将讨论主成分分析(PCA)如何利用 4 个或更多的基因测量结果,4 个或更多维度的数据来绘制二维 PCA 图。
PCA原理
为了了解 PCA 的作用和工作原理,让我们回到只有 2 个基因的数据:
我们分别计算基因 1 和基因 2 的均值,利用平均值, 我们可以计算出数据的中心(图中蓝色的×)
现在我们将移动数据, 使中心位于图中原点 (0, 0) 上:
注: 整体移动数据并不会改变数据点之间的相对位置
现在数据以原点为中心,我们可以试着拟合一条线上去:
我们需要了解 PCA 如何决定合适与否,我们首先随机画一条来穿过原点
为了量化这条线与数据的拟合程度, PCA 将数据投影到线上面,然后它可以测量