高通量测序是什么技术，通俗易懂点

最新推荐文章于 2025-04-08 00:30:00 发布

谷禾牛博

最新推荐文章于 2025-04-08 00:30:00 发布

阅读量1.8k

点赞数 21

分类专栏：生信分析文章标签：人工智能深度学习机器学习算法经验分享

本文链接：https://blog.csdn.net/Hangzhou_Guhe/article/details/135552085

版权

生信分析专栏收录该内容

18 篇文章

订阅专栏

谷禾健康

在这里插入图片描述

DNA 测序是测量各种生命形式主要特性的基础。自20世纪50年代发现DNA双螺旋结构后，全世界科学家们就开始致力于确定不同物种基因组的原始序列。这一任务被称为基因组测序，旨在揭示不同生物的基因组组成和基因的排列顺序。

现代基因组研究标志之一是生成大量原始序列数据。这项工作的重要性在于，基因组序列的破译可以提供关于生物的遗传信息，包括基因功能、遗传变异和进化关系等方面重要线索。

在过去的几十年里，随着测序技术的不断发展和突破，测序的速度和精度都得到了显著提高。早期的测序方法主要依赖于Sanger测序技术，该技术基于DNA链延伸的原理，通过测量DNA链延伸反应中释放的荧光标记物来确定DNA序列。然而，由于其低通量和高成本的限制，Sanger测序逐渐被新一代测序技术（NGS）所取代。

随着新一代测序技术的兴起，如Illumina的高通量测序和454 Life Sciences的Roche测序平台以及华大基因（BGI）DNBSEQ-T7等测序平台，基因组测序进入了一个全新的时代。这些技术利用并行测序的原理，可以同时测序数百万个DNA片段，大大提高了测序的速度和效率。同时，这些技术也在成本和准确性方面取得了显著的突破，使得大规模基因组测序成为可能。

随着测序技术的不断进步，越来越多的原核和真核基因组序列被测序出来，并存储在公共数据库中，目前四个主要的数据库是:

美国国家生物技术信息中心 (NCBI) 的 GenBank
我国自己的数据库CNCB（China National Center for Bioinformation，国家生物信息中心）
日本 DNA 数据库 (DDBJ)
欧洲分子生物学实验室 (EMBL)

它们目前拥有丰度的实验以及样本核苷酸序列原始数据，此外还有蛋白质序列或大分子结构数据。这些数据库为科学家们提供了宝贵的资源，可以用于研究和比较不同物种的基因组，从而增进对生物多样性、进化和基因功能的理解。

除了基因组序列的分析，还需要开发各种生物信息学工具和数据库，以帮助解释和注释基因组数据。这些工具可以用于预测基因的功能、识别调控元件、比较不同物种之间的基因组差异等。

随着计算机技术的不断进步，测序数据也逐渐借助人工智能和机器学习等技术。这些技术可以辅助人们更快速、准确地分析和解释基因组数据，发现隐藏在数据中的模式和关联。机器学习算法可以用于预测基因的功能、识别基因组中的重要调控区域或精确区分相近物种等。

例如谷禾肠道菌群16S数据库，是谷禾健康从几十万人肠道菌群检测数据中提取的16S序列库，通过宏基因组匹配数据和模型构建，重新完成到种的物种注释。进一步通过基因组数据研究和分析，为您提供深度个性化的健康检测方案。

目前测序技术已经在许多应用领域产生了广泛的影响。例如，基因组测序为研究人类遗传疾病的发病机制提供了重要线索，短读长、高测量通量和低成本为个体化医学和精准治疗奠定了基础。此外，测序还广泛应用于农业、环境科学和生物工程等领域，为改良作物、保护环境和生产高效生物工艺提供了有力支持。

因此本文和大家分享DNA测序相关的知识以及测序技术的发展和测序的注意事项等。

01
DNA基础知识

DNA（脱氧核糖核酸）是遗传物质，存在于所有生物的细胞中，以双螺旋结构存在，由核苷酸组成，包括磷酸基团、脱氧核糖和四种氮含基（腺嘌呤A、胸腺嘧啶T、胞嘧啶C和鸟嘌呤G）。DNA负责存储遗传信息，指导蛋白质合成，并在细胞分裂时复制自身，确保遗传信息传递给子代。

不同物种的DNA在结构上非常相似，但在序列和组织上存在差异

人类DNA包含约30亿个碱基对，组成大约2万到2万5千个基因，这些基因分布在23对染色体上。人类DNA中的遗传信息决定了我们的外貌、生理功能和健康状况。人类的遗传多样性虽然存在，但所有人类的DNA序列大致相似，约有99.9%的相似度。个体基因组有 3-400 万个碱基对位置存在差异。这些变异可在单核苷酸多态性(SNP)中捕获，但也存在一些称为结构变异(SV) 的较大变异。

在这里插入图片描述

大多数病毒基因组有 10000 个 bp；某些植物的基因组长达数千亿个碱基对。细菌，通常具有较小的基因组，可以从几百万到几千万碱基对不等。细菌的DNA通常是单个环状染色体，而不是多条线性染色体。此外，许多细菌还含有质粒，这些是小型的DNA分子，可以在细菌之间进行转移，促进基因的水平传播，这是细菌适应环境和抗药性发展的重要机制。

总之，不同物种的DNA在功能上都是遗传信息的载体，但是在大小、形态和序列上存在差异，这些差异导致了物种之间的多样性。

不同物种个体基因组差异的产生有两个原因：

➼ 随机突变，在进化过程中发生，因为自然选择有利于某些表型。这些主要是由于细胞分裂期间 DNA 复制过程中的“错误”造成的。大多数突变都是有害的，会导致有害的表型变化并导致细胞死亡。有时，自然选择有利于某些突变，而这些突变会保留在种群中。

➼ 重组，发生在哺乳动物等高等生物的繁殖过程中。在重组过程中，亲本生物体传递给子代的遗传物质是来自亲本生物体的遗传物质的混合物。

DNA双链碱基互补

DNA 是双链的，并以双螺旋形式构建，其中核苷酸对作为螺旋的“横档”（因此称为“碱基对”）。腺嘌呤总是与胸腺嘧啶发生化学结合，而胞嘧啶总是与鸟嘌呤发生化学结合。换句话说，A 与 T互补，类似地 C 与 G 互补。AT 和 CG 对称为互补对。

DNA的结构如下所示：

在这里插入图片描述

图源：medlineplus

DNA序列通常以5'端（头部）到3'端（尾部）的方向展示或写入。当我们有一条 DNA 链时，由于知道互补对，所以可以推断出另一条链是第一条链的反向互补链。

为了获得反向互补，可以反转原始字符串中核苷酸的顺序，然后互补核苷酸（即，将 A 与 T 互换，将 C 与 G 互换）。

下图显示了 DNA 片段及其反向互补链的示例。

DNA 补体

在这里插入图片描述

DNA复制

DNA 是细胞复制的基础。当细胞进行细胞分裂（也称为有丝分裂）时，细胞核中的 DNA 会被复制，并通过下图所示的一系列步骤，一个亲代细胞产生两个相同的子细胞。

有丝分裂的图

在这里插入图片描述

图源：wikipedia

有丝分裂过程中涉及多种生物分子，我们在这里对有丝分裂过程进行了高度简化的解释。

在图中，我们从两条染色体开始：红色和蓝色。

首先，DNA 被复制，产生更熟悉的 X 形染色体。通过生物分子信号的复杂级联和细胞内重组，（现已复制的）染色体在细胞中部排列。对于每条染色体，两半被拉开，两个子细胞中的每一个都会收到原始染色体的副本。这会产生两个与原始亲本细胞在遗传上相同的子细胞。

DNA 复制是这张图中最重要的部分；这是用来进行测序的基础过程。DNA复制如下图所示：

在这里插入图片描述

在 DNA 复制过程中，两条 DNA 链首先被解压缩，产生两条单链，每条链都充当复制的模板。然后将短 RNA 引物附着到 DNA 上的特定位点；引物中的碱基与位点中的碱基互补。酶促进（或“催化”）化学反应，而DNA 聚合酶是催化新核苷酸与延伸结合引物的模板 DNA 互补配对的酶。

DNA 聚合酶用来延伸链的核苷酸称为dNTP（脱氧核苷酸三磷酸）。从生物化学角度来看，它们与核苷酸略有不同，因为它们在 DNA 复制过程中更容易使用。对应于A、C、G和T的dNTP分别是dATP、dCTP、dGTP和dTTP。

获取DNA序列主要依赖于测序技术。常用的测序技术有桑格测序法和下一代测序法。下一章节会详细介绍。

在这里插入图片描述

图源：praxilabs

桑格测序法准确度高但通量低。下一代测序法代表了高通量测序技术，它实现了并行化操作，大大提高了序列通量，降低了测序成本和时间，因此适合进行整个基因组或transcript组的测序。这些技术使大规模、高精度的DNA测序分析成为可能。

02
DNA测序

DNA 测序方法的发展在 2000 年左右达到顶峰，主要基于四位研究人员的贡献。

➛

Allan Maxam 和 Walter Gilbert 在 70 年代开发了一种 DNA 测序的化学方法，其中末端用放射性磷标记的 DNA 片段经过碱基特异性化学切割，并通过凝胶电泳分离反应产物。

➛

1977 年，Frederick Sanger采用另一种方法，通过使用链终止双脱氧核苷酸类似物完善了测序方法，该类似物导致引物DNA合成的碱基特异性终止。在这种方法中，引物通常用放射性磷标记。

➛

Leroy Hood 与他的同事 Michael Hunkapiller 和 Lloyd Smith 在1986年通过使用荧光标记的双脱氧核苷酸将 Sanger 方法修改为更高的通量配置。这种方法可避免使用寿命有限的放射性化合物，而是使用稳定的荧光探针。此外，所有核酸碱基的分析可通过仅读取一个而不是四个电泳泳道来完成，并且读取过程可以自动化。

这种高通量配置用于第一个人类基因组的测序，该测序于 2003 年通过人类基因组计划完成，该计划历时 13 年。

在这里插入图片描述

由于方法的改进和自动化，2008 年，另一个人类基因组在 5 个月的时间内完成了测序。第一份人类基因组草图的完成只是现代 DNA 测序时代的开始，它带来了更多的发明和新的、先进的高通量 DNA 测序策略，即所谓的下一代测序 (NGS)。

NGS 策略的发展正在满足我们对测序通量和成本的需求，从而在基因组研究中实现多种当前和未来的应用。这些先进方法需要开发新的生物信息学工具，作为分析过程中产生的大量数据的必要先决条件。

第一代测序——桑格测序

Fred Sanger 及其同事开发了一种基于放射性标记部分消化片段检测的相关技术。

著名的桑格测序起源于 20 世纪 70 年代末，当时桑格开发了一种基于凝胶的方法，将 DNA 聚合酶与标准核苷酸和链终止核苷酸 (ddNTP) 的混合物结合起来。将 dNTPS 与 ddNTP 混合会导致 PCR 期间测序反应随机提前终止。四个反应并行进行，每个反应包含一种版本的链终止核苷酸。使用凝胶电泳可视化该过程使得能够逐个碱基读取序列。在当时，这项技术是革命性的。它能够对 500-1,000bp 片段进行测序。

在这里插入图片描述

图源：praxilabs

桑格方法的一种变体——加减法，由桑格和艾伦·科尔森开发，于1977年获得了第一个DNA基因组序列，即噬菌体φX174。

在这里插入图片描述

图源：pixels

两年后，艾伦·麦克萨姆和沃尔特·吉尔伯特发表了他们的化学裂解技术，该技术成为第一个广泛采用的 DNA 测序方法。

在这里插入图片描述

到了 20 世纪 80 年代，桑格最初的方法已经自动化（毛细管电泳）。大块凝胶被更细的丙烯酸毛细管取代，结果可以在电泳图上查看。这项技术对于 2003 年人类基因组计划的完成至关重要。尽管如此，即使在人类基因组计划之后，毛细管电泳的成本仍然过高，无法实现大规模测序项目。

到 2000 年代中期，人们做出了一些努力来降低测序成本。世界各地的实验室正在测试用于更高通量筛选的新方法和技术。

第二代测序技术

第二代测序，也称为下一代测序（NGS）。简单来说，二代测序是依靠PCR文库构建和激光探针荧光信号读取的短读长测序。

目前最常见的平台有Illumina和华大基因（BGI）。

Illumina测序平台

由 illumina 等公司开发的第二代 NGS 技术可分为两大类：杂交测序或合成测序。

杂交测序是一种将重叠寡核苷酸序列集合组装在一起以确定 DNA 序列的方法。
合成测序技术使用聚合酶或连接酶将核苷酸与荧光标签结合，然后对其进行鉴定以确定 DNA 序列。

华大测序平台

华大基因测序化学方法被称为组合探针锚定合成（cPAS）。它采用Phi 29 DNA聚合酶进行滚动圆环复制，合成一条长的单链DNA，自组装成约300纳米大小的纳米球。然后进行鉴定以确定 DNA 序列。

随着大规模双脱氧测序技术的进步，一项新技术的出现奠定了下一代测序（NGS）技术的基础。这项名为焦磷酸测序的方法，利用DNA合成过程中焦磷酸盐产生的光信号来确定核苷酸序列。在这个过程中，模板DNA被固定在一个固相表面上，随着每个核苷酸的加入，通过检测焦磷酸释放的光信号来推断DNA的序列。此技术后续还引入了珠子，以便更有效地附着DNA分子。

焦磷酸测序技术被454 Life Sciences公司所开发，并最终被罗氏公司收购，成为市场上第一个取得重大成功的商业化NGS平台。

乳液PCR

在这一平台中，DNA文库通过油包水乳液PCR技术附着在微小珠子上。在测序过程中，当较小的珠联酶和dNTPs被引入到反应板上时，便可进行焦磷酸测序。这种高度并行化的方法显著提高了测序的吞吐量，实现了数量级的提升。

桥式放大

继454测序技术取得成功之后，许多新的并行测序技术相继出现。其中最显著的是Solexa测序技术，该技术后来被illumina公司收购。

在illumina测序方法中，待测的DNA分子首先通过接头与固定在流动池表面的互补寡核苷酸相结合。
接下来，一个称为桥式PCR扩增的过程允许在流动池表面形成高密度的DNA片段簇。
在随后的合成测序过程中，每次添加一个标记有荧光的dNTP（去氧核苷酸三磷酸），通过检测荧光信号来确定其加入的顺序。
随着时间的推移，可以并行读取成千上万个这样的簇。

Illumina测序平台因此成为了第一个实现商业化的高通量并行测序技术。

在这里插入图片描述

其他

随着时间的推移，新技术不断涌现，其中包括：

Ion Torrent，这种技术通过测量DNA聚合过程中的pH值变化来进行测序；
SOLiD技术，它采用的是连接测序的方法，这种方法不依赖于聚合酶催化的合成过程。

在这里插入图片描述

图源：slideserve

这些创新技术已经成为下一代测序（NGS）技术领域的一部分。NGS平台目前是主流的测序技术，它们可以以相对较低的成本进行高通量的测序工作。然而，这些平台的读长通常有限，一般产生的读长在50到500碱基对（bp）之间。

本文我们主要介绍Illumina和华大这两个平台的测序原理。其他的简单说明一下。

Illumina测序平台介绍

Illumina 的首个测序平台是通过收购Solexa公司获得的，被命名为基因组分析仪，并于2007年开始商业化运作。这台设备能够在每个测序通道中对600万个扩增的DNA片段进行测序，最初每个片段的读取长度大约是30个碱基。Illumina 不久后提升了这一读取长度，增至100多个碱基对。同时，流动池中扩增片段的数量也得到了提升，使得基因组分析仪的输出能力达到了80吉字节的碱基信息。

注：吉字节（GigaByte），又称千兆字节，是计算机存储容量单位，简称GB。

2010年，Illumina 推出了其第二代NGS设备——HiSeq。这款设备配备了两个流动池：

一个用于执行碱基添加的化学反应
一个用于扫描识别每次扩增中加入的碱基

紧接着，Illumina 又发布了HiSeq X10，该设备通过使用图案化的流动池凹坑（代替了传统的随机扩增簇），进一步提高了可分析片段的数量。

目前，Illumina 提供了多种测序设备，包括NextSeq 和 NovaSeq 系列，以及适用于不同规模需求的台式测序仪，如iSeq100和 MiniSeq。

在这里插入图片描述

NextSeq

NextSeq 500 于 2014 年推出，采用两种染料测序技术，而不是其前代产品使用的四种染料测序技术。仅拍摄红色和绿色图像，从而显着缩短周期和数据处理时间。该仪器能够在大约 30 小时的运行时间内读取4亿个碱基对。

NextSeq 1000 和 2000 机器于2020年发布，旨在通过提供机载信息学和基于云的技术来简化工作流程。P3 流动池扩展了 NextSeq 2000 仪器的范围，在单次测序运行中提供 11 亿次读取。

NovaSeq6000

NovaSeq 6000于2017年发布。它能够运行三种不同的芯片，并且可以生成100 GB的序列输出，价格仅为375美元——这个价格仅适用于测序，不包括DNA分离、文库制备、测序分析或数据贮存。

本质上，该机器每次运行能够对多达 48 个完整人类基因组进行测序，这可能需要长达 44 小时。其他关键应用包括单细胞分析、转录组测序和宏基因组分析。

在这里插入图片描述

HiSeq X 系列

HiSeq X Ten 测序仪是一种高性能的测序系统，它能够在单次运行中产生高达16 Tb的序列输出。使用该系统，可以以不到1000美元的价格对人类基因组进行30倍或更高倍数的测序，并且每年可以提供超过18,000个人类基因组的测序数据。每个流动池可以生成多达520亿次的读取，最长运行时间为48小时。

该系统具有超越人类物种的全基因组测序能力，并且还可以用于全外显子组测序、转录组测序、单细胞分析和多组学研究。

华大测序平台(BGI) 介绍

华大基因集团成立于1999年、参与人类基因组计划的中国公司。华大基因于2012年收购了Complete Genomics，其产品由子公司（华大智造）销售。

DNBSEQ-T7

DNBSEQ-T7于2019年推出，旨在支持健康项目和临床研究的一系列大规模测序应用。据报道，与百万基因组整体解决方案软件和硬件一起，DNBSEQ-T7 每年可以对多达 800,000 个样本进行测序。

在这里插入图片描述

硬件解决方案包括自动化文库制备系统，这意味着测序机可以24小时运行，无需人工干预，每天可以完成60个人类全基因组测序。其商业化预计将把个人全基因组测序的成本降低至 500 美元以下，从而改变测序格局。

华大基因测序化学

BGI的测序化学方法被称为组合探针锚定合成（cPAS）。它采用Phi 29 DNA聚合酶进行滚动圆环复制，合成一条长的单链DNA，自组装成约300纳米大小的纳米球。荧光探针被结合在其中，纳米球被连接到硅片流动池上，选择性地与带正电的材料高度有序地结合。然后，荧光发射被成像和测量，以记录碱基位置。

与所有短读取测序方法一样，BGI平台主要缺点是无法获得长的DNA序列。然而，基于cPAS的测序的一个重要优势是Phi 29 DNA聚合酶的高准确性，确保了环状模板的准确扩增。此外，由于DNA纳米球在流动池上保持不动，它们不会产生光学重复，并且不会干扰相邻的DNA。

DNBSEQ-G99（G99）

DNBSEQ-G99（以下简称“G99”）基因测序仪采用的是基于聚合酶链式反应（PCR）原理的测序技术。测序过程中，首先使用特定的引物引导 DNA 序列进行体外扩增，然后添加一种含有测序所需的四种不同颜色的 dNTP（脱氧核苷酸）和荧光标记物。当引物与待测序列结合后，聚合酶开始合成新的链，同时荧光标记物被激活并发出不同颜色的荧光。通过记录这些荧光信号，并使用计算机进行数据分析和解码，最终确定每个碱基的序列。

在这里插入图片描述

G99突破性地实现了12小时可完成PE150测序，从用户需求出发，在提供高质量的测序数据的同时，做到快速、简单、灵活，能为测序工作带来更好的体验，应用场景大大扩展了。

而且DNBSEQ-G99获批国家药品监督管理局(NMPA)医疗器械注册证（国械注准20233221289）。此次获批意味着，中小通量测序仪中的“速度王者”DNBSEQ-G99被准许在国内市场应用于临床，将能够充分发挥其快速、灵活的优势，服务于临床方向的应用需求。

第三代测序技术

第三代测序技术的原理主要基于单分子测序或合成测序方法，通过直接读取DNA分子的序列来进行测序。

单分子测序：通过将DNA固定在表面上，并使用荧光染料或其它探针进行测序。

单分子实时测序（SMRT）：使用PacBio公司的SMRT技术，通过监测DNA聚合酶在DNA模板上的荧光信号来进行测序。

纳米孔测序(Nanopore)：使用Oxford Nanopore Technologies（ONT）的纳米孔测序技术，通过将DNA分子通过纳米孔，测量通过纳米孔的电流变化来进行测序。

在这里插入图片描述

合成测序：通过在反应体系中逐步合成DNA序列，并使用荧光标记的核苷酸来标记每个碱基。第三代测序技术通常具有较长的读取长度，可以读取数千到数百万个碱基。

第三代测序技术的不断发展和改进，为基因组学研究提供了更多的可能性，可以更好地解析复杂的基因组结构和功能。适用于长片段的测序，如全基因组测序、长读段转录组测序、甲基化测序等。然而，第三代测序技术也面临一些挑战，如测序错误率、数据处理和分析等方面的问题，需要进一步的研究和改进。

市场上的其他三代测序平台：

MinION：MinION设备是一种便携式的纳米孔测序仪器，可以实现实时测序，并且具有较小的体积和较低的成本。

GridION：GridION设备是一种高通量的纳米孔测序仪器，可以同时进行多个样品的测序。

PromethION：PromethION设备是一种高产量的纳米孔测序仪器，可以进行大规模的基因组测序。

此外国内目前也有多家公司已推出或正在开发三代测序仪，包括真迈生物，齐碳科技等。

03
DNA测序的前步骤及注意事项

测序将继续变得越来越高效和经济实惠，彻底改变与基因组学相关的多个领域。目前，所有高通量测序（NGS ）方法都需要文库制备。该方案发生在 DNA 片段化之后，其中接头连接到每个片段的末端。接下来通常是 DNA 扩增步骤，以产生一个文库，然后可以通过 NGS 平台进行测序。

在这里插入图片描述

➦1

样品制备分步指南

样品制备的本质是将生物样品中的核酸混合物转化为不同类型的文库，以准备进行NGS技术所需的测序步骤。如果未正确遵循方案，测序将会受到影响。每个准备步骤都是基础性的，并且根据样本和NGS平台的类型有不同的考虑因素。因此，在开始实验之前，考虑如何执行最有效的方案以确保最高质量的结果非常重要。

样品制备的一般步骤如下：

步骤1：提取遗传物质

这是每个样品制备方案的第一步。从各种生物样品中提取核酸（DNA 或 RNA）。

步骤2：文库准备

生成文库需要一系列步骤，最终目标是将提取的核酸转换成适合所选测序技术的格式。这是通过将目标序列片段化至所需长度，然后将特定的接头序列连接到这些目标片段的末端来完成的。

适配器还可以包括条形码，识别特定样品并允许多重分析。片段化可以通过物理或酶促方法完成。

步骤3：放大

这是一个可选步骤，但通常也是必需的。这取决于 NGS 的应用和样本量。扩增对于获得足够的覆盖范围以对含有少量起始材料的样品进行可靠测序至关重要。聚合酶链式反应(PCR) 是增加 DNA 量的常用方法。有关可实现小样本核酸检测的 PCR 方法出现的更多信息。

步骤4：纯化和质量控制

此步骤是必要的，以去除可能阻碍测序的任何不需要的材料。一些NGS平台可能对尺寸要求较窄，因此丢弃太大或太小的片段可以提高测序效率。最佳文库大小由测序应用决定。这种“清理”通常通过基于磁珠的清理或琼脂糖凝胶来完成。

质量控制是进行测序之前的最后一个过程。确认 DNA 的质量和数量可以提高测序数据的可信度。后续的实验既耗时又昂贵，因此需要严格的质量控制步骤以确保所有样品都适合其应用。

➦2

样品制备中的常见挑战

挑战 1

许多样本是从有限数量的样本或甚至单个细胞中提取的。它们本身并不能提供足够的遗传物质，因此需要进行 PCR。然而，该扩增步骤很容易给样品引入偏差。PCR 重复是指存在完全相同的 DNA 片段的多个拷贝。太多的 PCR 重复会导致实验的测序覆盖率不均匀。

解决方案 1：消除所有偏差来源有些不可能，但了解偏差发生的位置并采取所有实际步骤将其最小化非常重要。高 PCR 重复率表明文库制备需要进行一些修改，可能需要提高 NGS 文库的复杂性。

许多程序都可以删除 PCR 重复项，最常用的是 Picard MarkDuplicates 和 SAMTools。此外，特定的PCR 酶已被证明可以最大限度地减少扩增偏差。最终，文库制备的目标是最大限度地提高样品的复杂性，并最大限度地减少扩增造成的偏差。

挑战 2

建库效率低下是样品制备过程中面临的问题。具有正确适配器的片段比例较低反映了这一点。其后果是获得的测序数据量减少，嵌合片段数量增加。嵌合读数源自基因组中彼此不相邻的部分，并且是测序期间错误的来源。

解决方案 2：据报道，PCR 产物的有效A 加尾可防止嵌合体形成，该程序是通用的，可应用于多种不同的文库构建技术。此外，链分割伪影读数 (SSAR) 已被建议减少样本中嵌合伪影的数量，并且嵌合体检测程序可用于过滤原始序列，以实现仅 1% 的总体嵌合率。

挑战 3

样品污染是一个固有的问题，因为单独的文库通常是并行制备的。最可能的主要污染源是预扩增，这是一种在 PCR 之前增加核苷酸序列量的方法。

解决方案 3：可以通过质控，阴性对照，设置重复等步骤识别污染，确保在样品制备过程中使用无菌技术和无菌实验条件，以防止外源性污染的引入。

此外使用独特的条码和标签对样品进行标识（谷禾所有样本全程唯一条形码溯源识别管理），以避免混淆和交叉污染。最后，做好定期清洁和消毒：定期清洁和消毒实验室设备和工作区域，以减少污染的积累和传播。

挑战 4

文库制备的巨大成本主要归因于实验室设备、需要经过培训的人员和试剂成本。

解决方案 4：通过优化实验步骤和条件，可以减少试剂的使用量和浪费，从而降低成本。确保实验室人员接受适当的培训和技术支持，以提高实验的效率和准确性。与其他实验室或研究团队合作，共享设备和资源，共同承担成本和实验负担。随着自动化技术变得越来越流行，样品制备的准确性和效率可能会提高。

04
NGS测序过程注意问题

▼

碱基平衡

什么是碱基平衡？

测序中一个不可忽视的原则就是碱基平衡，是指测序过程中，每个循环中A、C、G和T四种碱基，比较均匀地存在。需要兼顾的平衡度与复杂度。在测序过程中，保持碱基平衡是非常重要的，可以确保测序结果的准确性和可靠性。

什么是碱基不平衡文库？

就是扩增子产生的文库，扩增子的特点是有特定的起始位点的。反应到测序图像上，就会呈现一张照片特别亮，光点很多，而其他三张照片就特别暗。这时软件做空间上比对就比较难。结果是判断的可靠性比较差，导致对于碱基的判读就会出现错误，从而导致测序质量值大幅度下降。一般添加诸如基因组DNA文库，或掺入大量的平衡碱基文库，包括phix文库等。同时，也可以尽量多掺入不同类型的扩增子文库。

此外，碱基平衡还涉及到检测和纠正测序过程中的碱基偏差。在测序过程中，可能会出现碱基的插入、缺失或错误，这些错误会影响测序结果的准确性。为了纠正这些错误，开发了各种生物信息学工具和算法，例如质量控制和碱基校正等。

▼

文库长度

文库长度含两侧测序接头和插入目标片段，整个文库的长度范围不能过宽，一般建议在250bp-450bp之间比较好，超过600bp以上就会造成一些不利影响。

过长的文库长度会降低测序效率

在Illumina测序等高通量测序平台上，测序片段长度会影响测序的质量和效率。过长的文库长度会增加测序过程中的错误率，并且会导致测序片段的读取长度变短。这会降低测序的可靠性和准确性，影响后续的生物信息学分析和数据解读。但是如果文库片段过短的话，该短片段测序到后期，就是要测接头序列了，有的时候连接头序列都测完了，那就没有信号了，后续会读取一些假信号，降低测序质量值。

过长的文库长度会降低簇密度

簇密度是基于单次只测一个碱基的边合成边测序原理，要求对各个分子簇的反应时间要求一致。也就是各个分子簇必须同时进行反应。理想状态当然是如此，但是实际PCR反应过程中，各个分子的反应时间还是不尽相同的（一般体系和酶要控制好）。因此，会产生有的分子簇内的分子反应的快，有的慢的情况过长的文库长度会降低簇密度。在Illumina测序中，DNA片段会被固定在测序芯片上的聚合酶链反应（PCR）产物中，形成簇。过长的文库长度会导致PCR扩增效率降低，从而降低簇密度。低簇密度会减少每个簇中的测序片段数量，进而降低测序的覆盖度和深度，影响后续的数据分析和解读。

过长的文库长度可能导致碱基偏移

在测序过程中，由于DNA聚合酶的滑动等原因，长片段的文库容易出现碱基偏移的情况。

05
二代测序数据质量评价

数据量(yield)

数据量指一次测序所获得的PF数据的总量。注意，是PF数据（PF数据是指通过滤波后的有效测序数据，即通过质量控制筛选后的测序片段），而不是原始数据。数据量当然越多越好，实际成绩与测序仪型号有关，不同的机器，产量不一样。

PF数据的总量是衡量测序深度和测序质量的一个重要指标。较高的PF数据总量表示测序过程中得到了更多的有效测序片段，可以提供更高的测序覆盖度和深度，从而提高后续数据分析的可靠性和准确性。

Q30

Q30是指在测序过程中，质量值（Quality Value，QV）大于或等于30的碱基。质量值是根据测序仪器对每个碱基的测量结果和信号峰值计算得出的，用来表示该碱基的质量好坏。Q30值越高，表示测序数据中高质量的碱基比例越高。

在这里插入图片描述

by：Alexander William Eastman

需要注意的是，Q30的大小与测序片段（read）的读长有关。如果读长较长，即测序片段包含的碱基数较多，那么要求每个碱基的质量值都达到或超过30就更加困难，因此平均%Q30可能会降低。相反，如果读长较短，即测序片段包含的碱基数较少，那么要求每个碱基的质量值达到或超过30就相对容易，平均%Q30可能会提高。

比对率（mappingrate）

将测序数据与参考序列（reference）进行比对，是测序数据分析中的一项重要步骤。比对率是指在比对过程中，测序数据与参考序列完全一致的碱基占测序数据总碱基数的比例。比对率越高，表示测序数据的准确性和可靠性越高。在细菌16S测序中，可以根据具体的需求选择适合的比对工具。

常用的比对工具是基于Smith-Waterman算法的BLAST（Basic Local Alignment Search Tool）和基于Burrows-Wheeler变换的Bowtie、BWA等工具。高比对率是测序数据质量好的重要指标之一。它表示测序数据的准确性和可靠性较高，能够提供更准确的基因组信息和变异位点等重要信息（在谷禾16s测序中，尤其粪便样本约超过 70%能比对到种）。在后续的数据分析和解读中，高比对率的测序数据更有助于准确地进行变异检测、基因表达分析、功能分析等。

需要注意的是，比对率受到多种因素的影响，包括测序数据质量、参考序列的准确性、数据库以及比对算法的选择等。在进行测序数据分析时，需要综合考虑比对率、测序数据质量和其他相关指标，以获得准确可靠的分析结果。

覆盖度（coverage）

由于测序数据的生成过程中存在一些技术和生物学上的随机性，导致不同区域的测序数据的覆盖深度（coverage depth）是不一样的。

覆盖深度是指在某个特定位置的测序数据的读段数目或测序碱基数目。覆盖深度越高，表示该位置的测序数据越丰富，测序结果的准确性和可靠性越高。

需要注意的是，覆盖深度的均匀性和高低受到多种因素的影响，包括测序深度、测序技术、样本质量等。

重复率（duplicationrate）

在二代测序文库的构建过程中，除了无PCR流程（PCR-free approach），其他方法都需要进行PCR扩增。PCR扩增会导致染色体的不同区域放大程度不一致，有部分序列被过度放大。这是一种人为引入的偏差。重复率与文库构建试剂的质量有关，对于人类全基因组测序来说，通常<10%。

捕获率（capturerate）

杂交捕获建库是通过探针杂交捕获来从基因组文库中富集相应序列的，探针杂交捕获存在着捕获效率高低的问题，因此考察、评价这一步骤成败、好坏的参数就是捕获率，越高越好。捕获率与所用的捕获试剂有关，不同的试剂，捕获率不同。

06
结语

高通量测序操作包括样品准备、文库构建、PCR扩增、测序仪器运行等。只有按照标准SOP规范操作，才能保证实验的准确性和可重复性。新测序仪平台和技术的不断出现和改进，使得高通量测序无论通量、质量、速度和成本都在快速进步，高通量测序的应用范围也大大得到拓展，不久的将来有望以低成本随时随地的开展高通量测序应用。