PCA原理 statQuest

PCA concepts:

PCA把所有细胞间(如果用基因表达来展示)的correlations在2-D图里表示。
PC1的差别远比PC2(PC3,PC4…)要大。
这里写图片描述
在这个例子中,倘若兰红距离和黄红距离一样,那么黄红之间的差别要比兰黄之间的差别大的多。

PCA是dimension reduction中的一种,包括heatmap, t-SNE, Multi-Dimensional Scaling (MDS)。

分步骤解析PCA过程

1,找到各自的均数,以均数(可能是个多维向量)为中心,放到新的坐标轴中心。
2,若是二维,过中心的线,定义哪条线最适合数据
3,根据勾股定理,要最小化点到直线的距离或者最大化投影点到原点的距离。选用投影点到原点的距离的平方的加和,转动直线,使其最大化。得到最大化的那个线就是PC1。基于PC1,根据每个基因的权重,可以知道基因的区分能力。
这里写图片描述
4,针对PC1,也就是新的坐标,我们要将其单元化。它一个单位的增长,可以看做k1*genei + k2*gene2 + … + kn*genen。这个1单位的向量,可以看做singular vector或者eigenvector for PC1。其中(k1,k2,…,kn)可以看loading scores。eigenvalue是新坐标下个点到原点的距离平方之和。
5,若在2-D图上,PC2是过原点垂直PC1的直线。倘若有PC3,那么会垂直PC1,PC2。理论上,PC数目和变量或者样本数目是一个意思这里写图片描述
6,转PC1-PC2坐标轴,然后根据投影点画出样本点的位置。
7,计算每个PC的贡献值这里写图片描述
可以看到PC1的贡献占比,占了绝大部分。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值