二代和三代测序数据的生殖系变异分析最佳实践综述

二代和三代测序数据的生殖系变异分析最佳实践

1. 背景知识

二代测序(SGS) 能够同时并行测序数百万到数十亿条短序列。然而,快速的技术创新已将我们带入了测序的第三个时代,长读长技术使得对非常隐蔽的基因组区域进行测序成为可能。通过 SGS 或三代测序(TGS) 分析生殖系变异 是人类遗传学和分子医学的一个关键领域。这些变异会对遗传性疾病的诊断和易感性产生重大影响,并影响对医学治疗的反应。因此,准确识别这些变异对于遗传疾病(尤其是罕见疾病)的早期诊断、预防和管理至关重要。

SGS 和 TGS 彻底改变了在基因组水平上有效检测和表征生殖系变异的能力。SGS 能够并行读取数百万个 DNA 片段,实现高覆盖度和精确的数据生成。此外,TGS(如 PacBio 系统和纳米孔技术)现在提供了实时读取更长 DNA 片段的可能性,能提供有关基因结构和变异的更全面信息。

2. 主要目标

回顾在 SGS 和 TGS 获得的计算数据分析的不同阶段中使用的各种分析工具,重点关注全基因组范围内的小和大生殖系变异的检测,以及那些不常被考虑的变异,如人类白细胞抗原(HLA)基因型、纯合子连续片段(ROH)和线粒体 DNA(mtDNA)改变。

3. 测序平台

有几家公司开发了具有独特优势的不同技术,主要包括Illumina、Element Biosciences、Ultima Genomics、ThermoFisher(Ion Torrent)和 MGI。

Illumina 作为市场领导者,采用合成测序技术,读长较短但准确性高,应用广泛,尤其在临床和研究基因组学领域。像 NovaSeq 这样的平台支持人类、植物和动物的全基因组测序(WGS)。

Element Biosciences 的 Aviti 平台也采用合成测序技术,但侧重于降低测序成本,同时保持与 Illumina 相当的准确性。研究表明,Aviti 能生成比 Illumina 系统更干净的数据,假阳性更少 。

Ultima Genomics 是一个较新的颠覆性平台,专注于超低成本测序,旨在将全基因组测序成本降至 100 美元。然而,其新颖方法的具体细节是专有的,尚未得到更广泛的应用。

Ion Torrent 是一个 SGS 平台,使用一种称为半导体测序的独特技术。与其他平台不同,Ion Torrent 直接检测核苷酸掺入过程中释放的氢离子(质子)。这一过程允许进行实时、无标记测序,使得 Ion Torrent 系统比其他一些平台更快、成本更低

MGI(华大基因的子公司)使用 DNBSEQ 技术,提供基于 DNA 纳米球的测序,以高精度和低成本著称,与 Illumina 相当,但具有独特的特点,如较低的重复率 。一项研究表明,其测序通量、周转时间、单碱基质量、读长质量和变异检测与 Illumina HiSeq2500 数据相似。

4 生殖系变异(Germline variant)分析

4.1 比对和预处理

数据的正确比对和预处理的重要性,特别是在孟德尔疾病的背景下。这些初步阶段对于确保测序数据分析的准确性和意义至关重要。通过比对,测序得到的 DNA 片段能够正确定位到所研究生物体的参考基因组序列上,从而识别相关的遗传变异。另一方面,预处理包括清理和标准化数据,以去除实验偏差,从而提高结果的质量和可靠性。

4.2 质量控制

Illumina 测序在碱基识别阶段将原始荧光信号转换为 “读段”(从测序过程中获得的短核苷酸序列)。读段以标准的 FASTQ 格式(.fq 或.fastq)保存在文本文件中。每个读段由其来源的 DNA 片段的核苷酸序列以及每个核苷酸的质量值(以 Phred 对数尺度表示读取错误的概率)表示。

FASTQ 文件的质量控制(QC)和预处理对于确保下游分析(如变异检测)的可靠性至关重要。通常,QC 包括以下内容

  1. 识别并去除任何测序接头;
  2. 识别并去除任何长度超过 10% 的未确定核苷酸(“N”)的读段;
  3. 识别并去除任何低质量核苷酸(通常 QPHRED<5 的比例超过 50%)的读段。

QPHRED​(Phred 质量)分数是 SGS 中用于估计碱基识别质量的指标。它反映了碱基被错误识别的可能性。该分数使用对数尺度计算,QPHRED 分数为 20 和 30 分别表示碱基识别错误的概率为 1% 和 0.1%。实际上,分数越高,碱基识别的准确性越高。达到 Q40 对需要高精度的应用(如临床诊断、罕见变异检测和大规模群体基因组学)非常有益,在这些应用中,即使是微小的不准确也可能导致数据解释的重大错误。

用于质量控制并同时收集 FASTQ 文件描述性指标的最广泛使用的软件是 FastQC
对于接头修剪和低质量读段去除,最常用的工具是 Cutadapt 和 Trimmomatic。随着测序样本数量、测序产量和读长的增加,为提高该阶段的效率,fastp 因其快速执行而成为质量控制阶段最广泛使用的程序之一。

4.3 参考基因组

参考组装版本选择不当会影响下游阶段的结果;因此,必须根据研究目的预先考虑其选择。

尽管人类基因组是特征最明确、最了解的基因组,但仍在进行许多努力以获得一个完整的(无间隙)版本,该版本能够代表不同人类群体的遗传多样性。对于人类和其他模式生物,参考组装由基因组参考联盟(GRC) 整理和发布。

目前,人类参考基因组最广泛使用的版本是 hg19(GRCh37,2009 年)hg38(GRCh38,2013 年) 。此外,端粒到端粒联盟(T2T,2022 年 1 月) 和人类泛基因组参考联盟最近发布的新组装值得关注。主要版本的组装报告了标准染色体(人类为 1 - 22、X、Y)、线粒体染色体以及各种未定位和 / 或未确定位置的重叠群的序列。

4.4 比对

SGS 在每个全外显子组测序(WES)实验中会产生许多短读段(100 - 200 个碱基),通常可达数千万个。这些读段存储在 FASTQ 文件中。比对(或映射࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值