这里,总结一下GWAS的学习笔记,GWAS全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标记选择(MAS)或者基因定位,这次学习的教程是plink做GWAS,plink是个很好的软件,但是之前做GWAS都是使用R包,听说plink和EMMAX做GWAS更快,更好,更容易写出pipeline。就利用网上的信息写一个操作笔记,先操作plink,然后是EMMAX,有一些模型知识的同学,理解起来应该不难。
GWAS分析的两类性状:分类性状(阈值性状,质量性状):比如抗病性,颜色等等
连续性在(数量性状):比如株高,体重,产量等等
GWAS的分析方法:分类性状:logistic等等
连续性状:GLM,MLM模型等等
「一般线性模型(GLM):」
这里,SNP作为固定因子,可以考虑其它协变量(比如性别,PCA,群体结构等等)
「混合线性模型(MLM):」固定因子:SNP + 可以考虑其它协变量(比如性别,PCA,群体结构等等),这里固定因子和前面的GLM一样
随机因子:亲缘关系矩阵(K矩阵或者A矩阵)
参考:
这个教程非常的经典,我看网上很多人推荐。
包括数据的过滤,SNP的过滤,样本的过滤&#