简介
主成分分析(PCA)是一种线性降维方法,通过线性变换简化数据集,提取关键信息对数据进行区分。群体重测序项目往往能得到百万乃至千万级别的SNP,基于SNP进行PCA的软件有很多,主流是下面三种:
- Plink: PLINK 1.9
- GCTA: GCTA | Yang Lab
- EIGENSOFT: https://github.com/DReichLab/EIG
前面两个软件使用起来相对简单一些,EIGENSOFT运行需要一些配置,相对麻烦一点。
数据准备
我这里使用我以前一篇 文章提到的数据rename.id.maf0.05.geno0.1.vcf,已经进行了过滤。
PCA
这里使用plink以及GCTA进行分析,分析之前都需要数据处理一下:
将vcf数据转换为