GWAS全基因组关联分析,近年来一直为研究的热点,不管是研究复杂疾病或是遗传育种,均有广泛的用途。但是GWAS的数据动辄上千的样本数据,如何对这庞大的数据进行分析?这里我们介绍一个强大的工具--PLINK的使用方法。
1. 数据准备
Plink的输入文件及格式
原始文件:ped和map文件
二进制文件:bed、bim、fam等
拓展的格式:ped文件、tped、tfam等
其中ped文件包含了基因型信息,一个样本一行;map文件包含了ped文件中的位点的信息。ped文件有7列,分别是家族ID、个人ID、父亲ID、母亲ID、性别、表型phenotype(1/2代表case or control)后面是基因型genotypes,基因型必须是成对存在的。性别编码可以使用1、2、other。
map文件默认条件下有4列,类似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩尔根距离,第四列碱基距离,对简单的关联分析来说摩尔根距离可以设成0,但是如果要查找个体间共享的片段摩尔根距离就很重要了。
2. 数据格式转换
plink工具可以将原始的map和ped格式文件转换成二进制文件可以节约存储空间。如下图所示:下图为plink的java图形界面使用方法(后文默认)这里简单说一下,plink命令行使用非常便捷,但是需要记住一些常用参数,linux下直接在命令行输入plink后面跟参数即可。