刚拿到手一个范围大约600KB的基因座的遗传数据。
356个SNP
1.对个体数据进行质控:
排除missing值>0.5的个体
2.检查遗传数据的性别是否与样本一致
3.对遗传数据进行质控:
3.1 哈温伯格定律检验:
> library(SNPassoc)
> idx <- grep("^rs", colnames(a)) #选择所有有“rs”的列
> a.s <- setupSNP(data=a, colSNPs=idx, sep="") #识别这些列为SNPS,数据表中的"AA"变成“A/A”,并通过setupSNP语句进行计算
> summary(a.s, print=FALSE) #查看结果
#只看HWE.P值?
> hwe <- tableHWE(a.s)
> head(hwe)
> write.csv(hwe,file="HWE.csv") #导出结果
结果:
其中,常用的MAF是最小等位基因频率。而给出的结果是最大等位基因频率。排除 Missing>5.0%, MAF