whole-genome-sequencing Data Analysis 学习笔记5 全基因组测序数据的变异位点

最新推荐文章于 2023-12-26 01:56:47 发布

VIP文章 Cs_mary

最新推荐文章于 2023-12-26 01:56:47 发布

阅读量1.5w

点赞数

分类专栏： BioInfo 文章标签：生物数据

本文链接：https://blog.csdn.net/Cs_mary/article/details/59480389

版权

变异为什么是相对的？

有的变异现象是由于生殖细胞内的遗传物质的改变引起的，因而能够遗传给后代，属于可遗传的变异。
可遗传的变异有三种来源：基因突变，基因重组，染色体变异。

由于DNA分子中发生碱基对增添、缺失或改变，而引起的基因结构的改变，就叫做基因突变，特点是普遍，随机，频率低，多有害，不定向

基因重组是指在生物体进行有性生殖的过程中，控制不同性状的基因的重新组合。基因的自由组合定律告诉我们，在生物体通过减数分裂形成配子时，随着非同源染色体的自由组合，非等位基因也自由组合，这样，由雌雄配子结合形成是一种类型的基因重组。在减数分裂形成四分体时，由于同源染色体的非姐妹染色单体之间常常发生局部交换，这些染色体单体上的基因组合，是另一种类型的基因重组。
对进化十分有意义

基因突变是染色体的某一个位点上基因的改变，这种改变在光学显微镜下是看不见的。而染色体变异是可以用显微镜直接观察到的比较明显的染色体变化，如染色体结构的改变、染色体数目的增减等。
染色体变异分为：

结构变异：自然条件或人为因素的影响下，染色体发生的结构变异主要有4种：
1.染色体中某一片段的缺失；
2.染色体增加了某一片段；
3.染色体某一片段的位置颠倒了180度；
4.染色体的某一片段移接到另一条非同源染色体上。

数目变异：
一般来说，每一种生物的染色体数目都是稳定的，但是，在某些特定的环境条件下，生物体的染色体数目会发生改变，从而产生可遗传的变异。
一类是细胞内的个别染色体增加或减少，
另一类是细胞内的染色体数目以染色体组的形式成倍地增加或减少。

二倍多倍
由受精卵发育而成的个体，体细胞中含有两个染色体组的叫做二倍体。体细胞中含有三个或三个以上染色体组的叫做多倍体。其中，体细胞中含有三个染色体组的叫做三倍体；体细胞中含有四个染色体组的叫做四倍体

多倍体产生的主要原因，是体细胞在有丝分裂的过程中，染色体完成了复制，但是细胞受到外界环境条件（如温度骤变）或生物内部因素的干扰，纺锤体的形成受到破坏，以致染色体不能被拉向两极，细胞也不能分裂成两个子细胞，于是就形成染色体数目加倍的细胞。如果这样的细胞继续进行正常的有丝分裂，就可以发育成染色体数目加倍的组织或个体。

简单说一下什么是找变异，变异跟突变有什么区别呢？
有国际组织规定了人类的参考基因组（如UCSC,ENSEMBL,NCBI等)
AAAAA(这里简化一下，就5个碱基，其实人类基因组多达30亿个)
有的个体测序后可能对应的是AGCAA，那么相比国际基因组来说，个体就有2个变异位点，位于基因组的坐标2和3，但是它们还不能说就是突变。

如第二位碱基，虽然我的是G，参考基因组是A，但是全球已经测序了几百万人，而我查看了他们的测序结果，其中99万人都是G，这说明是参考基因组出现了问题，可能是国际组织当年恰好选择了一个人是A，所以就规定第二个碱基是A。所以虽然我用软件找到了我的这个位点相对于参考基因组是来说，是一个变异，但是这恰好是好事，完全不用担心，我们也不需要用突变这个单词来描述它！（种群里的某一个位点有很多正常的变化，所以个体出现的同类变化不能算作变异）

那么接下来看第3位碱基，同样，国际组织规定了是A，而我却测了个C，但是全球已经公布的一百万人里面99.999万人都跟参考一样，就是A。有一个人和参考基因组对应的碱基不一样，不一样的那个人是个有病的患者，这个时候，你就惨了，这个变异，就是突变了！（还是看大多数人是怎么回事，要是大多数人都是A，而个体是G，那么个体可能有问题）

很多变异其实只是造成人种多样性的原因，是构成人独特性的基础，而那些跟疾病相关的变异，我们通常就会叫做是突变！
不要以为跟大多数人一样，就没事了！其实也并不是这样，一般来说，在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害，
而且变异还可以分成germline、somatic、de novo等情况，如果是特定性的针对某种疾病还可以找driver的mutation，但总之，我们得先找到自己的测序数据跟国际规定的参考基因组有什么区别（变异）吧！

全基因组重测序数据分析详细说明
通过高通量测序识别发现
denovo的somatic体细胞和germline生殖细胞突变，
结构变异-SNV，包括重排突变(deletioin,duplication以及copy number variation)以及SNP的座位；
针对重排突变和SNP的功能性进行综合分析；
我们将分析基因功能(包括miRNA)，重组率(Recombination)情况，杂合性缺失(LOH)以及进化选择与mutation之间的关系；
以及这些关系将怎样使得在disease(cancer) genome中的mutation产生对应的易感机制和功能。
我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。

初级数据分析
1.数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。

2.一致性序列组装：与参考基因组序列(Reference genome sequence)的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

测序短序列匹配（Read Mapping）

（1）屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体，未定位的contig，以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代)。采用标准序列匹配处理对原始序列文件进行基因组匹配，将Read与参考基因组进行初始匹配；给出匹配的平均质量得分分布；

（2）碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分，并校准一些显著性误差，包括来自测序循环和双核苷酸结构导致的误差。

（3）测序误差率估计。pseudoautosomal contigs，short repeat regions(包括segmental duplication，simple repeat sequence-通过tandem repeat识别算法识别)将被过滤；

2.SNP Calling 计算(SNP Calling)我们可以采用整合多种SNP探测算法的结果，综合地，更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析，保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法，以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布
稀有等位基因数目在不同类别的SNV中的比率分布（a）；

SNV的类别主要考虑：

（1）无义（nonsense）

（2）化学结构中非同义

（3）所有非同义

（4）保守的非同义

（5）非编码

（6）同义，等类型SNV；

另外，针对保守性的讨论，我们将分析非编码区域SNV的保守型情况及其分布

3.短插入/缺失探测(Short Insertion /Deletion (Indel)Call）

（1）计算全基因组的indel变异和基因型检出值的过程;

计算过程主要包含3步：

①潜在的indel的探测；

② 通过局部重匹配计算基因型的似然值；

③ 基于LD连锁不平衡的基因型推断和检出识别。Indel在X，Y染色体上没有检出值得出。

（2）Indel 过滤处理

4.融合基因的发现(Fusion gene Discovery)选择注释的基因信息来自于当前最新版本的Ensemble Gene数据库，RefSeq数据库和Vega Gene

最低0.47元/天解锁文章

Cs_mary

关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
whole-genome-sequencing Data Analysis 学习笔记5 全基因组测序数据的变异位点

变异为什么是相对的？有的变异现象是由于生殖细胞内的遗传物质的改变引起的，因而能够遗传给后代，属于可遗传的变异。可遗传的变异有三种来源：基因突变，基因重组，染色体变异。由于DNA分子中发生碱基对增添、缺失或改变，而引起的基因结构的改变，就叫做基因突变，特点是普遍，随机，频率低，多有害，不定向基因重组是指在生物体进行有性生殖的过程中，控制不同性状的基因的重新组合。基因的自由组合定律告诉我们，在生物体
复制链接

扫一扫