我们进行GWAS分析,必须得有数据,那么什么样的数据,什么样的数据格式才能保证GWAS正常分析呢。今天主要给大家分享一下进行GWAS分析常用到的几种数据格式。
(一)*.bim/*.fam/*.bed格式为一组
其中bim文件则是存储每个遗传变异(通常是SNP)的相关信息,最后的fam存储的是样本信息,bed是存储基因型信息的。
*.bim文件, 总共6列
第一列:Chr 染色体编号
第二列:SNP 标记名称
第三列:GD 遗传距离(摩尔根),一般情况写0即可
第四列:BPP 物理距离(单位:bp)
第五列:Allele 1 一般情况下为次要等位基因
第六列:Allele 2 一般情况下为主要等位基因
*.fam文件,总共6列
第一列:FID Family ID
第二列:IID Within-family ID (不能是'0')
第三列:PID Within-family ID of father ('0' if father isn'