二代和三代测序数据的生殖系变异分析最佳实践
1. 背景知识
二代测序(SGS) 能够同时并行测序数百万到数十亿条短序列。然而,快速的技术创新已将我们带入了测序的第三个时代,长读长技术使得对非常隐蔽的基因组区域进行测序成为可能。通过 SGS 或三代测序(TGS) 分析生殖系变异 是人类遗传学和分子医学的一个关键领域。这些变异会对遗传性疾病的诊断和易感性产生重大影响,并影响对医学治疗的反应。因此,准确识别这些变异对于遗传疾病(尤其是罕见疾病)的早期诊断、预防和管理至关重要。
SGS 和 TGS 彻底改变了在基因组水平上有效检测和表征生殖系变异的能力。SGS 能够并行读取数百万个 DNA 片段,实现高覆盖度和精确的数据生成。此外,TGS(如 PacBio 系统和纳米孔技术)现在提供了实时读取更长 DNA 片段的可能性,能提供有关基因结构和变异的更全面信息。
2. 主要目标
回顾在 SGS 和 TGS 获得的计算数据分析的不同阶段中使用的各种分析工具,重点关注全基因组范围内的小和大生殖系变异的检测,以及那些不常被考虑的变异,如人类白细胞抗原(HLA)基因型、纯合子连续片段(ROH)和线粒体 DNA(mtDNA)改变。
3. 测序平台
有几家公司开发了具有独特优势的不同技术,主要包括Illumina、Element Biosciences、Ultima Genomics、ThermoFisher(Ion Torrent)和 MGI。
Illumina 作为市场领导者,采用合成测序技术,读长较短但准确性高,应用广泛,尤其在临床和研究基因组学领域。像 NovaSeq 这样的平台支持人类、植物和动物的全基因组测序(WGS)。
Element Biosciences 的 Aviti 平台也采用合成测序技术,但侧重于降低测序成本,同时保持与 Illumina 相当的准确性。研究表明,Aviti 能生成比 Illumina 系统更干净的数据,假阳性更少 。
Ultima Genomics 是一个较新的颠覆性平台,专注于超低成本测序,旨在将全基因组测序成本降至 100 美元。然而,其新颖方法的具体细节是专有的,尚未得到更广泛的应用。
Ion Torrent 是一个 SGS 平台,使用一种称为半导体测序的独特技术。与其他平台不同,Ion Torrent 直接检测核苷酸掺入过程中释放的氢离子(质子)。这一过程允许进行实时、无标记测序,使得 Ion Torrent 系统比其他一些平台更快、成本更低。
MGI(华大基因的子公司)使用 DNBSEQ 技术,提供基于 DNA 纳米球的测序,以高精度和低成本著称,与 Illumina 相当,但具有独特的特点,如较低的重复率 。一项研究表明,其测序通量、周转时间、单碱基质量、读长质量和变异检测与 Illumina HiSeq2500 数据相似。
4 生殖系变异(Germline variant)分析
4.1 比对和预处理
数据的正确比对和预处理的重要性,特别是在孟德尔疾病的背景下。这些初步阶段对于确保测序数据分析的准确性和意义至关重要。通过比对,测序得到的 DNA 片段能够正确定位到所研究生物体的参考基因组序列上,从而识别相关的遗传变异。另一方面,预处理包括清理和标准化数据,以去除实验偏差,从而提高结果的质量和可靠性。
4.2 质量控制
Illumina 测序在碱基识别阶段将原始荧光信号转换为 “读段”(从测序过程中获得的短核苷酸序列)。读段以标准的 FASTQ 格式(.fq 或.fastq)保存在文本文件中。每个读段由其来源的 DNA 片段的核苷酸序列以及每个核苷酸的质量值(以 Phred 对数尺度表示读取错误的概率)表示。
FASTQ 文件的质量控制(QC)和预处理对于确保下游分析(如变异检测)的可靠性至关重要。通常,QC 包括以下内容:
- 识别并去除任何测序接头;
- 识别并去除任何长度超过 10% 的未确定核苷酸(“N”)的读段;
- 识别并去除任何低质量核苷酸(通常 QPHRED<5 的比例超过 50%)的读段。
QPHRED(Phred 质量)分数是 SGS 中用于估计碱基识别质量的指标。它反映了碱基被错误识别的可能性。该分数使用对数尺度计算,QPHRED 分数为 20 和 30 分别表示碱基识别错误的概率为 1% 和 0.1%。实际上,分数越高,碱基识别的准确性越高。达到 Q40 对需要高精度的应用(如临床诊断、罕见变异检测和大规模群体基因组学)非常有益,在这些应用中,即使是微小的不准确也可能导致数据解释的重大错误。
用于质量控制并同时收集 FASTQ 文件描述性指标的最广泛使用的软件是 FastQC。
对于接头修剪和低质量读段去除,最常用的工具是 Cutadapt 和 Trimmomatic。随着测序样本数量、测序产量和读长的增加,为提高该阶段的效率,fastp 因其快速执行而成为质量控制阶段最广泛使用的程序之一。
4.3 参考基因组
参考组装版本选择不当会影响下游阶段的结果;因此,必须根据研究目的预先考虑其选择。
尽管人类基因组是特征最明确、最了解的基因组,但仍在进行许多努力以获得一个完整的(无间隙)版本,该版本能够代表不同人类群体的遗传多样性。对于人类和其他模式生物,参考组装由基因组参考联盟(GRC) 整理和发布。
目前,人类参考基因组最广泛使用的版本是 hg19(GRCh37,2009 年) 和 hg38(GRCh38,2013 年) 。此外,端粒到端粒联盟(T2T,2022 年 1 月) 和人类泛基因组参考联盟最近发布的新组装值得关注。主要版本的组装报告了标准染色体(人类为 1 - 22、X、Y)、线粒体染色体以及各种未定位和 / 或未确定位置的重叠群的序列。
4.4 比对
SGS 在每个全外显子组测序(WES)实验中会产生许多短读段(100 - 200 个碱基),通常可达数千万个。这些读段存储在 FASTQ 文件中。比对(或映射