单细胞转录组 —— 测序介绍

名本无名

已于 2024-06-25 11:33:51 修改

阅读量2.3k

点赞数 6

分类专栏：单细胞转录组文章标签：数据库

于 2024-06-18 09:34:23 首次发布

本文链接：https://blog.csdn.net/dxs18459111694/article/details/139761680

版权

单细胞转录组专栏收录该内容

6 篇文章

订阅专栏

单细胞转录组 —— 测序介绍

接下来学习一下单细胞转录组的分析，主要参考 Single-cell best practices 和 Orchestrating Single-Cell Analysis with Bioconductor 两篇电子书，以及软件包 SingleCellExperiment 、Seurat 和 scverse 等。

前言

RNA 测序主要有两种方法：一种是对来自不同细胞的混合 RNA 进行测序（bulk sequencing），另一种是对单个细胞的转录组进行测序（single-cell sequencing）。

在大多数情况下，混合细胞的 RNA-seq 比复杂的单细胞测序更便宜、更容易。

bulk RNA-seq 得到的是所有细胞的平均表达谱，这通常更容易分析，但也会隐藏很多信息，如细胞表达的异质性。

有些药物或扰动可能只会影响特定的细胞类型或细胞类型之间的相互作用。例如，耐药的肿瘤细胞会导致癌症复发，即使是在培养的细胞上也很难通过简单的 bulk RNA-seq 来识别。

所以，需要在单细胞水平上研究基因的表达，来揭示这种关系。

但是，scRNA-seq 的实验成本通常较高，难度较大。由于分辨率提高，下游分析将变得更加复杂，也更容易得出错误的结论。

一般来说，scRNA-seq 与 bulk RNA-seq 一样，也需要裂解、反转录、扩增和测序，最后下机的数据也是 BCL 文件。

不同的是，scRNA-seq 还需要对细胞进行分离，将细胞物理分离到更小的反应室中，或以另一种形式对细胞进行标记，以便对获得的转录组数据进行回溯，找到对应的细胞。

大多数单细胞检测方法的不同之处主要在于单细胞的分离、转录本扩增以及不同的测序仪。

转录本定量

转录本定量是将测序后的 reads 数据与基因序列进行比对，并统计落在转录本区域内的 read count。

转录本定量主要有两种方法：full-length（全长）和 tag-based（基于标签）。

full-length

全长测序方法与文库制备与 bulk RNA-seq 测序方法类似，检测整个 mRNA 分子（从 5' 端到 3' 端）完整的转录本信息。

这种方法提供了更全面的基因表达数据，可以解析不同的转录本变异和剪接事件。但是，该方法并不总是能均匀覆盖所有转录本，因此整个基因体的特定区域仍可能存在偏差。

全长测序仅限于 plate-based 测序协议。

tag-based

基于标签的测序方法只测量 mRNA 分子的一个小片段（标签），通常是靠近 3' 端或 5' 端的一部分。这种方法通过捕获和测序这些标签来定量基因表达水平。

基于标签的方案只能对转录本的 3' 或 5' 端进行测序。这样做的代价是无法覆盖整个转录本，因此很难将 reads 比对到整个转录本，也就很难区分不同的转录本。

不过，它们使用独特的分子标识符（UMI），这有助于解决转录本扩增过程中的偏差问题。

转录本扩增过程是任何 RNA-seq 测序技术的关键步骤，以确保转录本足够丰富，便于质量控制和测序。

这一过程通常使用聚合酶链反应（PCR），从原始的片段中复制一份拷贝。由于拷贝和原始分子无法区分，因此确定样本中原始分子的数量变得十分困难。

使用 UMI 是量化原始、非拷贝分子的常见解决方案。UMI 可用作分子条形码，由短的随机核苷酸序列组成，作为唯一标签添加到样本中的每个分子上。

UMI 必须在扩增之前的文库生成过程中添加。准确识别 PCR 重复序列对于分析扩增偏差非常重要。

所谓的扩增偏差（amplification bias）是指在 DNA 或 RNA 扩增过程中，某些片段的扩增效率比其他片段更高或更低，从而导致测序结果中这些片段的相对丰度与原始样本中的实际丰度不一致的现象。

不同片段的相对丰度与实际样本中的丰度不一致，会影响基因表达量的准确性以及数据的完整性和可靠性。扩增偏差增加了数据分析的复杂性，需要更多的校正和归一化步骤来纠正偏差。

通过优化实验条件、使用 UMI 和多重扩增技术，以及在数据分析中进行标准化和归一化，可以有效减少扩增偏差的影响。使用 UMI 还可以对基因计数进行归一化处理，而不会降低准确性。

测序协议

按细胞分离方法不同，单细胞测序可以分为三类：

基于微流控，将细胞封装到水凝胶液滴中；
基于孔板，将细胞物理分离到孔板中；
基于商用 Fluidigm C1 微流控芯片，将细胞装入并分离到小型反应室中。

这三种方法在获取转录本的能力、细胞的数量以及许多其他方面都有所不同。

基于微流控

基于微流控的单细胞测序技术利用微流控芯片可将细胞捕获在水凝胶液滴内，从而将细胞分隔到单细胞反应室中，并进行高通量测序。微流控技术通过精确控制微尺度液体流动，实现单细胞水平的操作和分析。

以下是几种常见的基于微流控的单细胞测序技术及其特点

inDrop

InDrop 通过在微液滴内进行逆转录和条形码标记，实现高通量单细胞 RNA 测序。

Drop-seq

Drop-seq 通过将单个细胞和带有条形码的珠子封装到微液滴中，实现单细胞 RNA 测序。

10x Genomics Chromium

10x Genomics Chromium 系统利用微流控芯片和凝胶珠（GEMs）进行单细胞捕获和条形码标记，实现高通量单细胞 RNA 测序。

技术对比

尽管这三种方案在细节上有所不同，但含有封装细胞的纳升大小液滴总是被设计成能同时捕获磁珠和细胞。

磁珠表面通常含有很多短的寡核苷酸序列，序列中包含 PCR 引物、barcode（用于区分细胞或样本）、4-8bp 长的唯一分子标识符（UMI，区分同一个细胞内不同的分子）和 poly-T 尾。

当细胞裂解时，细胞的 mRNA 会瞬间释放，被附在微珠上的寡核苷酸捕获。接下来，收集并破碎液滴，释放出附着在微颗粒上的单细胞转录组（STAMPs）。然后进行 PCR 扩增和反转录，以捕获和扩增转录本。最后进行标记，随机切割转录本并连接测序接头，上机测序。

在基于微流控技术的方案中，只能收集细胞中约 10% 的转录本 Islam et al, 2014。这种低水平的测序足以对细胞类型进行可靠的鉴定。

在 Zhang et al, 2019 的研究中，对这三种技术进行了详细的对比。发现这三种基于微流控装置的方法都会产生特有的偏差，不同方案使用的微珠材料也不同。例如：

Drop-seq 使用脆性树脂制作珠子，因此珠子的包被率呈泊松分布；而 InDrop 和 10X Genomics 珠子可变形，因此珠子的包被率超过 80%。

在 Drop-seq 中，捕获效率可能受到使用表面系固引物的影响。InDrop 使用的引物会随着光裂解而释放，而 10X genomics 会溶解珠子。这种差异也会影响反转录过程的位置。在 Drop-seq 中，反转录发生在珠子从液滴中释放之后，而 InDrop 和 10X genomics 的反转录发生在液滴内部。

10X Genomics 在灵敏度方面也有类似的优势。平均可以捕获 3000 个基因中的约 17000 个转录本，而 Drop-seq 捕获 2500 个基因中的 8000 个转录本，InDrop 捕获了 1250 个基因中的 2700 个转录本。

10X Genomics 的技术噪音最低，其次是 Drop-seq 和 InDrop。

在珠子质量方面，10X Genomics 优于 inDrop 和 Drop-seq，在后两个系统中的细胞条形码含有明显的错配。此外，10X Genomics 的有效条形码 reads 比例为 75%，而 InDrop 和 Drop-seq 分别只有 25% 和 30%。

10X Genomics 偏好捕获和扩增较短的基因和 GC 含量较高的基因，而相比之下，Drop-seq 偏好捕获和扩增 GC 含量较低的基因。

虽然 10X Genomics 在各方面都优于其他方案，但每个细胞的成本也高出约两倍。此外，除了珠子之外，Drop-seq 是开源的，因此在需要时可以更容易地调整方案。InDrop 是完全开源的，甚至珠子都可以在实验室中制造和修改。因此，InDrop 是三种方案中最灵活的一种。

优缺点

优点

可对大量细胞进行低成本高效率的测序，以确定组织的细胞组成和稀有细胞类型的特征
提高了单细胞捕获和处理的精确度，减少了交叉污染的风险

局限性：

与其他方法相比，转录本的检出率较低
只能捕捉 3'，而不是完整的转录本

基于孔板

基于微孔板的方法通常是将细胞物理分离到微孔板中。

第一步是通过荧光激活细胞分选（FACS）等方法对细胞进行分选，根据特定的细胞表面标记物对细胞进行分选；或者通过微量移液器对细胞进行分选。

然后将选中的细胞放入装有细胞裂解缓冲液的单个孔中，随后进行反转录。这样就可以在一次实验中分析数百个细胞，每个细胞可捕获 5000 到 10000 个基因。

基于孔板的测序方法包括但不限于 SMART-seq2、MARS-seq、QUARTZ-seq 和 SRCB-seq。

技术对比

这些方案的多路复用能力各不相同。例如，MARS-seq 允许使用三个条形码级别，即分子、细胞和平板级标签，以实现强大的多重分析能力。

与此相反，SMART-seq2 不允许限制细胞数量的早期多路复用。

2020 年，Mereu 等人对各种方案进行了系统比较，发现 QUARTZ-seq2 比 SMART-seq2、MARS-seq 或 SRCB-seq 每个细胞能捕获更多基因 Mereu et al, 2020，这意味着 QUARTZ-seq2 能很好地捕获细胞类型特异性标记基因，从而为细胞类型注释提供可靠依据。