如何进行单基因病和复杂疾病的遗传学研究?

文章介绍了单基因遗传病和复杂疾病的研究方法。对于单基因遗传病,主要采用全外显子组测序、家系连锁分析等策略,通过LOD值和单倍型分析寻找致病基因。复杂疾病则依赖于全基因组关联分析(GWAS),通过检测常见变异与疾病关联,同时提到了罕见变异的关联研究。文章强调了样本选择、统计分析和遗传模式在疾病研究中的重要性。
摘要由CSDN通过智能技术生成

背景知识

单基因遗传病,即孟德尔遗传疾病,是指受一对等位基因(主效基因)控制的遗传性疾病。孟德尔遗传病是新生儿出生缺陷的重要原因之一,目前全球已知的单基因遗传疾病大约7000多种,而且大部分的潜在疾病基因尚未研究清楚。

复杂疾病,是由多个基因及环境因素相互作用所致的疾病,例如心血管疾病、二型糖尿病、原发性高血压、银屑病等。这类疾病发病率一般超过0.001,在临床或流行病学方面具有一定程度的家族倾向,但又不表现典型的孟德尔遗传方式。

一般认为微效作用模式在复杂疾病的发生机制中起主要作用,即来自多个位点的大多数风险基因在群体中的发生频率都很低,它们之间有相互作用,通过数量性状的剂量效应关系,达到疾病发生的临界阈值,而共同决定了复杂疾病的遗传易感性。

单基因遗传疾病的研究策略

针对散发样本或小家系样本,可应用全外显子组测序或全基因组测序检测致病变异,并进行变异过滤分析,即通过样本间的比较和已知数据库的注释,筛选可能的致病变异。

这种方式可能会找到目的致病变异,但缺点是无法提供统计意义上的致病性评估,可能会受到各种预料外的因素影响。要获得统计意义上的确认,那只能通过连锁分析。

针对中等、大家系样本,家系连锁分析则是研究单基因遗传疾病致病基因/位点的最有效方法。连锁分析是一种较为传统的遗传定位方法,主要观察发生在家系内的遗传重组。

研究者已利用该方法发现了大量如囊性纤维化、亨廷顿病等单基因疾病的致病基因。此外,连锁分析还可以提供统计学上的致病性评估,且分析策略可根据疾病外显率和拟表型情况进行校正。连锁分析依赖家系中所有有信息价值成员的基因型数据。

复杂疾病的研究策略

全基因组关联分析(Genome-wide association study,GWAS)被广泛应用于探索复杂疾病易感位点研究中,主要分为基于无关个体的方法和基于核心家系的方法。

全基因组关联研究是应用基因组中数以百万计的单核苷酸多态性为分子遗传标记,检测全基因组范围的遗传变异与复杂疾病性状之间遗传关联的一种策略。

其基本思想是基于连锁不平衡的原理,直接检测基因本身或基因附近的微小区域(<0.1 cM)的SNP标记与复杂性状表型信息的关联来实现致病位点的精细定位。

GWAS研究需要注意等位基因结构(数量、类型、作用大小和易感变异频率)在不同性状/疾病中可能具有不同特征。

例如年龄依赖性黄斑变性由少数几个较大效应的常见遗传变异导致,而克罗恩病则发现数十个遗传变异与该疾病相关,且这些变异只能解释一小部分病例表型。

另外,在一个群体中GWAS结果显著的SNP在其它群体中有时并不显著,这是由于不同群体可能具有不同的等位基因频率以及连锁不平衡区域,因此GWAS研究需要排除人群分层的影响。

最后,GWAS是一种检测常见变异的方法,即一般最小等位基因频率(Minor Allele Frequency,MAF)大于5%的变异,但不能有效检测低频(1%<MAF<5%)或罕见(MAF<1%)的风险等位基因位点。

针对复杂疾病中的低频或罕见变异,由于其发生频率过低,导致差异性检验结果一般不显著而无法被发现。因此,需要对低频和罕见变异位点进行分组,提高低频和罕见变异集合整体的出现频率、减少多重检验次数,再利用差异性检验找出低频和罕见突变集合与疾病的关联性。

技术路线

 

分析筛选策略及结果展示

单基因遗传疾病

策略一:SNP芯片家系连锁分析+个别家系成员全外显子组测序

若有中等大家系,可先利用SNP芯片进行家系连锁分析,找到与疾病或性状关联的连锁区段。通过连锁分析,我们会得到一个象征连锁关系显著度的值,即LOD 值,根据LOD值来判断致病位点与分子标记之间的连锁情况。

对分析所得LOD>2或者LOD>3的区段,利用软件Merlin(v1.1.2)和Haplopainter可进行单倍型的分析及图形的绘制,根据单倍型分析结果可查看所患病或同一表型的个体所携带的单倍型是否一致,而正常个体中是否携带不同的单倍型。

对已确定的连锁候选区段,选取家系中个别样本进行高通量测序,进行筛选,以期找到真正相关的致病或关联位点。值得注意的是,即便得到一个非常显著的LOD值,仍然存在假阳性的可能。也有可能在LOD非常显著的区域内,测序无法找到候选的致病位点。

造成这种情况的原因很多,比如真正的致病位点没能捕获下来,致病位点测序深度太低,致病位点位于重复序列区域难以分析,致病位点在非编码区等等,当各种基因组序列的检测分析都做完后还没能找到致病位点的,可以考虑下区段内是否有CNV的情况。更进一步,在获得候选致病位点后,如果能提供一定的功能实验进行验证说明将是非常好的结果。

 

策略二:全外显子组测序直接筛选

对于单基因疾病来说,可以假设真正的疾病基因对应的突变具有非常大的作用,因此应该具有以下特点:1)在人群中罕见,只出现在少数病人中;2)位于基因组蛋白编码区域;3)直接影响突变基因的蛋白功能。

所以对于样本收集困难,或关键样本缺失的家系,利用遗传模式、变异人群频率、蛋白危害度预测及疾病数据库等信息可直接过滤筛选可能的致病变异。对于筛选得到的候选位点在致病性的判断方面可遵循ACMG (the American College of Medical Genetics and Genomics)于15年发布的序列变异分类解读指南。

 

关于样本选取问题

无论是关联分析还是连锁分析都是依赖于染色体重组进行计算的。在人的染色体中,约1Mb长度的染色体发生重组的概率约为1%,于是就有了1Mb≈1cM(厘摩尔根)的概念。

如果致病位点与所检测的marker之间的距离非常近,比如100kb,那么重组率θ=0.001,那意味着致病位点与marker之间几乎不可能发生重组,也就是紧密连锁。

因此这个marker就可以作为致病变异的代表存在。致病区段的定位依赖于有效的重组信息,如在父母亲这一代的样本中,两个相近的杂合位点才可以对分析提供有价值的连锁信息,如果不是,它将无法提供重组的有效信息。

在遗传模式不明的家系中,如果祖父母辈这一代的信息缺失,那么至少需要两个第三代的儿童才有可能提供足够的连锁信息。

当研究经费受限时,怎样的样本挑选策略才能既经济又能得到有指导意义的结果?

对于常染色体显性遗传病家系模型,挑选亲缘关系较远的多数(两个以上)患者和一两个正常对照,检测的两个患者样本的亲缘关系越远越好。

基于的原理则是亲缘关系越远,拥有相同遗传片段的概率越低,得到的LOD值越高。对于常染色体隐性遗传病家系模型,可选取患者及父母亲样本。

对于De novo 突变模型,同样选取患者及父母亲样本,然而该策略需要选取多个患者样本,而针对每个患者需要做三个外显子组测序(患者和父母样本),样本量较大,一般只适用于其他策略不能使用且病人双亲样本可获得的情况。

复杂疾病

常见变异的关联研究

GWAS的统计分析依据研究设计不同可采用不同的分析方法:

针对无关个体质量性状的关联分析,最常采用病例-对照分析(Case-controls Study),比较病例组和对照组中标记位点的等位基因频率,通过卡方检验、Logistic回归等统计分析找到显著差异的位点,则认为此位点同疾病相关。

针对无关个体数量性状的关联分析,数量性状是连续变异的性状,比如人的身高、血压等等,需收集患病散发人群样本,以数量性状为因变量,通过单因素方差分析、协方差分析或线性回归等统计分析找到显著差异的位点。

针对核心家系样本的关联分析,最常用的就是传递不平衡检验(transmission disequilibrium test,TDT)。TDT的基本思想是分析等位基因从杂合子双亲传递到受累后代的概率,若概率偏离0.5,则发生了传递不平衡,即标记和疾病基因存在关联(假设群体中标记位点总体上不存在对孟德尔分离的偏离)。

这种关联由以下两个原因引起:(1)标记本身就是疾病基因;(2)标记与疾病基因存在连锁不平衡;从而可以进行基因定位。

TDT分析的优势在于可以排除人群分层对于关联分析的影响,不足之处在于(1)TDT要求对家系进行取样,当研究的疾病是中老年发病的话,收集父母双亲较为不易;(2)与case-control的关联设计类似,当疾病存在异质性时,将明显降低其检出力。这时可按疾病病理性状、种族特征等将患者区分为不同的亚组,可能有助于提升分析效力;(3)同样与case-control关联分析类似,如疾病存在外显不全而出现发病晚的特点时,将导致部分患病个体被当作正常个体对待,影响检出力。在这种情况下,可选择用高龄个体作为对照。

图4 GWAS分析方法

在设计初始GWAS实验时,一般分两个阶段。初筛阶段,应用SNP基因分型芯片、全外显子组测序或全基因组测序对样本进行SNP分型和统计分析,筛选得到少量阳性SNPs;

验证阶段,应用Fluidigm平台或Sanger测序等方法在大量样本,甚至多种人群样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。

GWAS两阶段研究策略减少了工作量和成本,通过重复实验也减小了假阳性率。

 关联分析结果展示

针对不同的疾病分型,采用Allelic、Genotypic、Dominant、Recessive等多种遗传模型进行基于case-control的关联分析,并绘制相关结果图形。

(1)曼哈顿图(Manhattan Plot)

 曼哈顿图。X-轴为基因组坐标,Y-轴为每个单核苷酸多态性的关联p值的负对数。

(2)QQ图(Quantile-Quantile)

 QQ图。X-轴为理论P值,Y轴为检测到的P值,可用来观测观察值是否显著偏离理论值。

(3) 区域关联分析图

通过GWAS分析筛选出与疾病相关的显著性位点,再通过MACH1.0对客户数据中缺失的位点进行模拟填补,最后构建显著位点所在染色体区段的关联图谱。

图中横坐标为染色体位置,纵坐标为各个位点的显著性,紫色菱形为关注的显著性位点,GWAS分析获得数据以圆形表示,叉为预测的SNP(imputed SNP),颜色深浅为各个位点同显著位点的连锁情况(红色r^2大于0.8,橙色r^2在0.6-0.8之间,绿色r^2在0.4-0.6之间,浅蓝色r^2在0.2-0.4之间,蓝色r^2小于0.2)。图中的蓝紫色线为重组率。

 

显著区段连锁不平衡分析

对显著区段,可进一步的进行连锁不平衡的分析,连锁不平衡(linkage disequilibrium, LD)是指基因组中不同基因座间存在的非随机关联,即不同基因座的非等位基因间的非随机组合。

LD Plot表示该基因所有snp的的连锁情况,各个方块的颜色由浅至深(白—红),表示连锁程度由低到高,深红色表示完全连锁。

 

罕见变异的关联研究

在针对常见变异(MAF>0.01)的疾病关联性分析流程中,一般直接统计单个SNV或indels分别在疾病组和控制组中的出现频率,然后进行差异性检验。

但是对单个低频突变而言,其在疾病组和对照组中的出现频率都非常低,导致其差异性检验结果一般不显著。

同时,低频突变位点数量巨大(一个VCF文件中包含的低频突变往往在105个以上),对所有位点同时进行差异性检验后需要极其严格的P值校正。

因此单位点检验法不适合低频突变的关联性分析。在分析策略上,有必要通过对低频变异位点分组,比如将来自同一基因的罕见变异集合起来作为一个整体进行分析,从而提高低频突变集合整体的出现频率、减少多重检验次数,再利用差异性检验找出低频突变集合与疾病的关联性。

分组后可利用Burden检验对各个低频突变集合进行关联性检验。

最后,基于不同MAF及不同分组,将每组中排名前20的显著差异的基因进行富集分析。


这是我知识星球的部分内容,我会持续更新遗传学的相关知识以及代码复现。如果需要学习更详细的遗传学数据处理教程,请丝信我,或者直接加我:Drzhou688,备注CSDN。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值