在硕士就读期间,开始学习 GWAS 相关的分析。随着高通量测序成本的降低,标记数量越来越多,不得不进入 linux 和 脚本操作的时代,因此我也陆陆续续的学习了 R 和 Python等编程语言,但是在编程的世界里,只是一个小菜鸟,大部分的脚本都是“借来的”。
全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型(calling-snp),进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。
关联分析的基础-连锁不平衡(LD)
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(Linkage Disequilibrium,LD)。
r2 和 D'
• r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。
D’能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法
观测到,导致LD强度被高估,所以D’不适合小样本群体研究;
• LD衰减作图中通常采用r2来表示群体的LD水平;
• Haplotype Block中通常采用D’来定义Block;
• 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素都会引起LD的改变。
LD的衰减
LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;
• LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度。


单倍型块分析(haplotype block):
指位于同一条染色体处于连锁不平衡状态的一段连续区域,可用于筛选显著的SNP tag和确定候选基因的范围
常用的gwas软件:
R语言、plink、gemma、GAPIT、gcta等
gwas分析的2类性状:
质量性状(非连续性状,分类性状,主效基因,不易受环境的影响):颜色、抗性等---logistic模型
数量性状(连续性状,微效基因控制,易受环境的影响):剑叶长、株高、叶舌长度等---GLM、MLM模型
模型Y=SNP(固定因子)+协变量(PCA-Kinship-admiture)+e
3.材料选择与群体设计:
基本原则:1.变异丰富(包括遗传和表型变异),2.群体结构分化不能过于明显
样本量:位点的检测效应值越低,需要的样本量越大
Y=基因组大小/LD衰减距离

表型调查:相对准确的表型(非常关键)
数量性状:需经过正态分布检验,材料种植于同一环境,对于多年多点的数据分开分析后综合结果或者取BLUP值作为性状值进行关联分析
质量性状:可转换为0,1等
分级性状:类似质量性状,比如抗病性
标记的开发:利用软件gatk对重测序的数据进行calling-snp(或者Indel,CNV,SV等)
