现将如何基于全基因组的SNP数据进行PCA分析流程记录下来:
1)全基因组snp数据格式为 .vcf
2)利用vcftools软件进行格式转换(Linux系统下:进入 /vcftools_0.1.13/cpp
路径后,会注意有个文件vcftools是别样颜色):
./vcftools --vcf tmp.vcf --plink --out tmp
此时会生成两个文件:tmp.ped 和 tmp.map
3)利用plink软件进行数据格式转换(Linux系统下:下载plink软件,进入 /plink-1.07-i686 路径下 ,
运行:chmod a+x plink ,此时会发现plink文件变了颜色,接下来运行下一行):
./plink --noweb --file tmp --make-bed --out tmp
注意,输入文件和输出文件都不需要文件名的后缀,此时生成3个文件:tmp.bed,tmp.bim 和 tmp.fam
4)利用gcta软件进行pca构建(Linux系统下:下载gcta软件,进入 /gcta 路径下 , 运行:chmod a+x
gcta ,此时会发现gcta文件变了颜色,接下来运行下一行):
4.1 ./gcta --bfile tmp --make-grm --autosome --out tmp
此时生成一个文件:tmp.grm.gz
4.2 ./gcta --grm tmp --pca 3 --out pcatmp
此时生成两个文件:pcatmp.eigenval 和 pcatmp.eigenvec