whole-genome-sequencing Data Analysis 学习笔记5 全基因组测序数据的变异位点

变异为什么是相对的?

有的变异现象是由于生殖细胞内的遗传物质的改变引起的,因而能够遗传给后代,属于可遗传的变异。
可遗传的变异有三种来源:基因突变,基因重组,染色体变异。

由于DNA分子中发生碱基对增添、缺失或改变,而引起的基因结构的改变,就叫做基因突变,特点是普遍,随机,频率低,多有害,不定向

基因重组是指在生物体进行有性生殖的过程中,控制不同性状的基因的重新组合。基因的自由组合定律告诉我们,在生物体通过减数分裂形成配子时,随着非同源染色体的自由组合,非等位基因也自由组合,这样,由雌雄配子结合形成是一种类型的基因重组。在减数分裂形成四分体时,由于同源染色体的非姐妹染色单体之间常常发生局部交换,这些染色体单体上的基因组合,是另一种类型的基因重组
对进化十分有意义

基因突变是染色体的某一个位点上基因的改变,这种改变在光学显微镜下是看不见的。而染色体变异是可以用显微镜直接观察到的比较明显的染色体变化,如染色体结构的改变、染色体数目的增减等。
染色体变异分为:

结构变异:自然条件或人为因素的影响下,染色体发生的结构变异主要有4种:
1.染色体中某一片段的缺失;
2.染色体增加了某一片段;
3.染色体某一片段的位置颠倒了180度;
4.染色体的某一片段移接到另一条非同源染色体上。

数目变异:
一般来说,每一种生物的染色体数目都是稳定的,但是,在某些特定的环境条件下,生物体的染色体数目会发生改变,从而产生可遗传的变异。
一类是细胞内的个别染色体增加或减少,
另一类是细胞内的染色体数目以染色体组的形式成倍地增加或减少。

二倍多倍
由受精卵发育而成的个体,体细胞中含有两个染色体组的叫做二倍体。体细胞中含有三个或三个以上染色体组的叫做多倍体。其中,体细胞中含有三个染色体组的叫做三倍体;体细胞中含有四个染色体组的叫做四倍体

多倍体产生的主要原因,是体细胞在有丝分裂的过程中,染色体完成了复制,但是细胞受到外界环境条件(如温度骤变)或生物内部因素的干扰,纺锤体的形成受到破坏,以致染色体不能被拉向两极,细胞也不能分裂成两个子细胞,于是就形成染色体数目加倍的细胞。如果这样的细胞继续进行正常的有丝分裂,就可以发育成染色体数目加倍的组织或个体。

简单说一下什么是找变异,变异跟突变有什么区别呢?
有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等)
AAAAA(这里简化一下,就5个碱基,其实人类基因组多达30亿个)
有的个体测序后可能对应的是AGCAA,那么相比国际基因组来说,个体就有2个变异位点,位于基因组的坐标2和3,但是它们还不能说就是突变

如第二位碱基,虽然我的是G,参考基因组是A,但是全球已经测序了几百万人,而我查看了他们的测序结果,其中99万人都是G,这说明是参考基因组出现了问题,可能是国际组织当年恰好选择了一个人是A,所以就规定第二个碱基是A。所以虽然我用软件找到了我的这个位点相对于参考基因组是来说,是一个变异,但是这恰好是好事,完全不用担心,我们也不需要用突变这个单词来描述它!(种群里的某一个位点有很多正常的变化,所以个体出现的同类变化不能算作变异)

那么接下来看第3位碱基,同样,国际组织规定了是A,而我却测了个C,但是全球已经公布的一百万人里面99.999万人都跟参考一样,就是A。有一个人和参考基因组对应的碱基不一样,不一样的那个人是个有病的患者,这个时候,你就惨了,这个变异,就是突变了!(还是看大多数人是怎么回事,要是大多数人都是A,而个体是G,那么个体可能有问题)

很多变异其实只是造成人种多样性的原因,是构成人独特性的基础,而那些跟疾病相关的变异,我们通常就会叫做是突变
不要以为跟大多数人一样,就没事了!其实也并不是这样,一般来说,在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害,
而且变异还可以分成germline、somatic、de novo等情况,如果是特定性的针对某种疾病还可以找driver的mutation,但总之,我们得先找到自己的测序数据跟国际规定的参考基因组有什么区别(变异)吧!

全基因组重测序数据分析详细说明
通过高通量测序识别发现
denovo的somatic体细胞和germline生殖细胞突变,
结构变异-SNV,包括重排突变(deletioin,duplication以及copy number variation)以及SNP的座位;
针对重排突变和SNP的功能性进行综合分析;
我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;
以及这些关系将怎样使得在disease(cancer) genome中的mutation产生对应的易感机制和功能。
我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。

初级数据分析
1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。

2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

  1. 测序短序列匹配(Read Mapping)

(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代)。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;

(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。

(3)测序误差率估计。pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤;

2.SNP Calling 计算(SNP Calling)我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布
稀有等位基因数目在不同类别的SNV中的比率分布(a);

SNV的类别主要考虑:

(1)无义(nonsense)

(2)化学结构中非同义

(3) 所有非同义

(4)保守的非同义

(5)非编码

(6)同义,等类型SNV;

另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布

3.短插入/缺失探测(Short Insertion /Deletion (Indel)Call)

(1)计算全基因组的indel变异和基因型检出值的过程;

计算过程主要包含3步:

①潜在的indel的探测;

② 通过局部重匹配计算基因型的似然值;

③ 基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。

(2)Indel 过滤处理

4.融合基因的发现(Fusion gene Discovery)选择注释的基因信息来自于当前最新版本的Ensemble Gene数据库,RefSeq数据库和Vega Gene

  • 0
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值