PCA原理 statQuest

最新推荐文章于 2022-10-02 16:05:41 发布

theomarker

最新推荐文章于 2022-10-02 16:05:41 发布

阅读量1.3k

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/theomarker/article/details/82717706

版权

machine learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

PCA concepts:

PCA把所有细胞间（如果用基因表达来展示）的correlations在2-D图里表示。
PC1的差别远比PC2（PC3,PC4…）要大。
这里写图片描述
在这个例子中，倘若兰红距离和黄红距离一样，那么黄红之间的差别要比兰黄之间的差别大的多。

PCA是dimension reduction中的一种，包括heatmap, t-SNE, Multi-Dimensional Scaling (MDS)。

分步骤解析PCA过程

1，找到各自的均数，以均数（可能是个多维向量）为中心，放到新的坐标轴中心。
2，若是二维，过中心的线，定义哪条线最适合数据
3，根据勾股定理，要最小化点到直线的距离或者最大化投影点到原点的距离。选用投影点到原点的距离的平方的加和，转动直线，使其最大化。得到最大化的那个线就是PC1。基于PC1，根据每个基因的权重，可以知道基因的区分能力。
这里写图片描述
4，针对PC1，也就是新的坐标，我们要将其单元化。它一个单位的增长，可以看做k1*genei + k2*gene2 + … + kn*genen。这个1单位的向量，可以看做singular vector或者eigenvector for PC1。其中（k1,k2,…,kn）可以看loading scores。eigenvalue是新坐标下个点到原点的距离平方之和。
5，若在2-D图上，PC2是过原点垂直PC1的直线。倘若有PC3，那么会垂直PC1，PC2。理论上，PC数目和变量或者样本数目是一个意思这里写图片描述
6，转PC1-PC2坐标轴，然后根据投影点画出样本点的位置。
7，计算每个PC的贡献值
可以看到PC1的贡献占比，占了绝大部分。

theomarker

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PCA原理 statQuest

PCA concepts:PCA把所有细胞间（如果用基因表达来展示）的correlations在2-D图里表示。 PC1的差别远比PC2（PC3,PC4…）要大。在这个例子中，倘若兰红距离和黄红距离一样，那么黄红之间的差别要比兰黄之间的差别大的多。PCA是dimension reduction中的一种，包括heatmap, t-SNE, Multi-Dimensional Sca...
复制链接

扫一扫