关联分析的理解,1.5版本

本文介绍了全基因组关联分析(GWAS)的基本原理,包括其在寻找性状(如身高、肥胖)遗传基础中的应用,涉及统计学概念、连锁不平衡以及GWAS的选材原则和分析流程。讲解了从样本处理、SNP分型到关联分析和验证的完整过程。
摘要由CSDN通过智能技术生成

全基因组关联分析(Genome-Wide Association Study, GWAS)

参考文章(部分内容转载,原文标注,目的是为了我方便观看):

参考文献:

全基因组关联分析筛选淮南猪繁殖性状候选基因 - 中国知网 (cnki.net)

大豆种质耐碱性状全基因组关联分析 - 中国知网 (cnki.net)

葡萄果粒质量相关性状全基因组关联分析 - 中国知网 (cnki.net)

文献可以直接

检索结果-【维普期刊官网】- 中文期刊服务平台 (cqvip.com)

GWAS入门 - 综述推荐与导读 - 知乎 (zhihu.com)

有没有适合入门统计遗传学的讲义或书? - 知乎 (zhihu.com)

这里在系统的总结一下。

一,研究背景

1.1什么是GWAS? 

1.1.1全基因组关联分析(Genome-Wide Association Study, GWAS),GWAS是一种用于识别遗传区域(基因座)和性状(包括疾病)之间关联的无假设方法, 在群体水平上解析性状遗传基础的方法。

通俗点,在一个从常见基因突变(common variant,>5%的人口所具有的突变)中来找到至病的变异(SNP),然后可以针对这个变异进行更广泛的科研。

举个例子说明一下,

比如,我们在世界上找到了一组身高超过姚明身高的‘小巨人’,身高就是这些‘小巨人’的性状特征。然后,我们对这些小巨人进行了全基因检测,然后将这些人的基因和普通身高人的基因进行分析。虽然‘小巨人’和‘普通人’的99%的基因都是一模一样的,但是基因当中还是有些可变位点(即 单核苷酸多态(single nucleotide polymorphism,SNP)),在人群中有差异。然后将这些SNP和身高做相关性分析,统计分析每个变异SNP与目标性状(身高)之间的关联性大小。假设,我们在‘小巨人’全基因组上,找到了某些高频率的SNP,那么这些高频率的SNP可能就是促进身高的关键SNP。而这种相关性分析的方法被称为全基因组关联分析。

通俗的意思就是,“找到了某些高频率的SNP,那么这些高频率的SNP可能就是促进身高的关键SNP”,上图(只是举例说明):

如果这些都是我们求出来的和性状相关的snp,在不同个体中,那么选中的位置对个体身高的影响太过明显,可能是我们想要的,“高频率的SNP可能就是促进身高的关键SNP”。

进行GWAS,得到的SNP的作用,可以通过一个小的例子来解释,

肥胖’作为性状特征,如果进行GWAS分析,就可以找到导致人类肥胖的遗产变异SNP。通过这些SNP,我们可以定位到相关的基因,相关的蛋白,从而针对该蛋白靶标,制定有效的减肥策略。

如何理解全基因组关联分析 - 知乎 (zhihu.com)

1.1.2根据这篇文章,我们还得知道GWAS需要统计的概念,对多个个体在全基因组范围的遗传变异多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或P值筛选出最有可能影响该性状的遗传变异。

随着基因组学和测序技术的发展,一些物种已经完成了全基因组测序,每条染色体上是什么碱基都是可以知道的,根据不同个体基因组是有差异的,其中,一种多态性是SNP,即单核苷酸多态性,有的个体在这个位置是G,有的是A,正是这样一个个的差异最终导致了两个个体的表型差异。通过建立起表型和标记的联系,间接找到控制这个性状的基因座(QTL)。

也就是我们能找到很多snp的位点, “高频率的SNP可能就是促进身高的关键SNP”用统计学的概念来理解,

假如你检测到某SNP标记很可能与性状关联,那么就可以推测,在这个SNP位点附近应该存在一个控制性状的位点/基因,意思就是,这些高频的SNP位点附近或者是本身就是真正促进我们身高的关键SNP。

而,“变异位点和性状相关”的结论正确的概率是多少,如果有95%甚至99%的概率是正确的,那么这个结论在统计学上就是可以接受的。也就是犯错概率是0.05或0.01,这就是文献中经常出现的显著性P值

 上述理解有问题欢迎指点。还有一些其他文章,可补充我没讲到的问题,比如GWAS的基础是连锁不平衡,接下来我也会具体阐述一下

文献带读 | 全基因组关联研究(GWAS):复杂疾病相关的遗传因素的研究方法 - 知乎 (zhihu.com)

DNA 12. SCI 文章绘图之全基因组关联分析可视化(GWAS) - 知乎 (zhihu.com)

1.2连锁不平衡是什么?

连锁不平衡是指 不同基因座(loci)等位基因(allele)之间非随机(nonrandom)的关联

通俗的来说,当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率,大于群体中,因随机分布的两个等位基因同时出现的概率时,称这两个座位处于连锁不平衡状态。 

连锁不平衡 linkage disequilibrium LD - 知乎 (zhihu.com)

全基因组关联分析GWAS专题2——连锁不平衡 - 知乎 (zhihu.com)

如何理解连锁不平衡? - 知乎 (zhihu.com)

Linkage disequilibrium — understanding the evolutionary past and mapping the medical future - PMC (nih.gov)

“连锁不平衡(LD)”与“基因连锁”概念的辨析? - 知乎 (zhihu.com)

根据上面文章的介绍,我们可以知道

1)在连锁不平衡中,单倍型出现的概率与随机组合的概率之间存在了偏移。这个偏移即是LD的程度。

                                                P(A)×P(B)

  • 若出现了连锁不平衡,则AB出现的概率为:

                                                P(AB)

这两个概率之间的差,反应了连锁不平衡的程度,即指数D:

                                        D=P(AB)−P(A)×P(B)

当D不等于0时,说明两基因之间存在连锁不平衡,D的绝对值大小反应了连锁程度的大小。

2)但D的计算,是根据每个基因的频率计算而出,不能用作基因对之外的比较。为了能够在不同基因对之间比较基因连锁程度的大小,提出了D':

        Dmax=    max{−pApB,−(1−pA)(1−pB)}         whenD<0

                        min{pA(1−pB),(1−pA)pB}              whenD>0

D'进行如此变换之后,可以在不同基因对间进行比较,D'取值为0-1 。

3)但D‘仍然不是万能的

  1. 在两种位点只出现3种单倍型时(有AB,Ab,aB但不出现ab),D'=1 。同时当D'小于1时,很难理清到底代表了多大程度的LD。
  2. D'严格依赖于样品量的大小。如果样品量太小,D'值的实际含义很容易被“夸大”,尤其某个位点的其中一个等位基因的频率很低的时候。

因此引入R²:

  • R² = 0,则完全连锁平衡
  • R² = 1,则完全连锁不平衡

因此,R²越大,捆绑越紧密,

2、影响LD的因素

LD的图可以查看一下我写的这篇文章。下载安装PopLDdecay学习笔记记录-CSDN博客

至于haploview进行连锁不平衡分析,需要下次完善。

二,关联分析流程

参考文章,全基因组关联分析(GWAS)简介 | 安静-不安静的博客 (anjingwd.github.io)

GWAS分析选材原则

  • 保证选取的样本具有足够的代表性;
  • 样本中不能有明显的亚群分化(例如生殖隔离等),因为明显分化的群体会使得遗传背景的噪音较大;
  • 建议选择几个比较重要且遗传力较高的表型性状作为研究的重点;
  • 质量性状尽量为0、1二值性状,并且两类性状的样本数应当尽量相近;
  • 数量性状尽量精确量化记录(如抗病性可以量化为发病率、死亡率、存活率、病斑数、病斑面积等,而不是简单的多级衡量),并使表型总体呈近似正态分布;
  • 栽培植物可以进行多年多点多重复记录,多年多点的观测结果可以分别进行关联分析,多重复可以取平均值进行关联分析;
  • 表型变异丰富、性状有明显的主效位点控制时样本量可以适当减小,推荐200个以上;表型差异较小,多基因控制时样本量应当增大,推荐500个以上。

自然群体GWAS的研究对象
非严格遗传群体:

  1. 种质资源
  2. 半同胞家系,混合家系
  3. MAGIC/NAM家系
  4. 多个F2/RIL/全同胞家系
  5. 高杂合类物种:F1群体

GWAS 的整体过程比较复杂,其大致流程如下:

  1. 经过处理的 DNA 样品与高通量的 SNP 分型芯片进行杂交;
  2. 通过特定的扫描仪对芯片进行扫描,将每个样品所有的 SNP 分型信息以数字形式储存于计算机中
  3. 对原始数据进行质控,检测分型样本和位点的得率(call rate) 、病例对照的匹配程度、人群结构的分层情况等;
  4. 对经过各种严格质控的数据进行关联分析;
  5. 根据关联分析结果,综合考虑基因功能多方面因素后,筛选出最有意义的一批 SNP 位点;
  6. 根据需要验证 SNP 的数量选择合适通量的基因分型技术在独立样本中进行验证;
  7. 合并分析 GWAS 两阶段数据。

浅谈全基因组关联研究 (Genome-wide association study,GWAS) - 知乎 (zhihu.com)

GWAS系列 | 带你读懂全基因组关联研究(一) - 知乎 (zhihu.com)

根据上面的文章的介绍,我们可以知道,

第一部分:Sequencing测序

第二部分:SNP calling质控

第三部分:Association analysis分析的方法我们采用的是,GCTA,gemma,tassel

第四部分:可视化R包QQ图和曼哈图

在质控,分析方法,可视化中,我会在另外的文章具体说明。

DNA 12. SCI 文章绘图之全基因组关联分析可视化(GWAS) - 知乎 (zhihu.com)

其他一些有趣的文章:

【全基因组关联分析GWAS专题1】——群体结构 - 知乎 (zhihu.com)

  • 20
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值