单细胞转录组 —— 测序介绍
接下来学习一下单细胞转录组的分析,主要参考 Single-cell best practices 和 Orchestrating Single-Cell Analysis with Bioconductor 两篇电子书,以及软件包 SingleCellExperiment 、Seurat 和 scverse 等。
前言
RNA
测序主要有两种方法:一种是对来自不同细胞的混合 RNA
进行测序(bulk sequencing
),另一种是对单个细胞的转录组进行测序(single-cell sequencing
)。
在大多数情况下,混合细胞的 RNA-seq
比复杂的单细胞测序更便宜、更容易。
bulk RNA-seq
得到的是所有细胞的平均表达谱,这通常更容易分析,但也会隐藏很多信息,如细胞表达的异质性。
有些药物或扰动可能只会影响特定的细胞类型或细胞类型之间的相互作用。例如,耐药的肿瘤细胞会导致癌症复发,即使是在培养的细胞上也很难通过简单的 bulk RNA-seq
来识别。
所以,需要在单细胞水平上研究基因的表达,来揭示这种关系。
但是,scRNA-seq
的实验成本通常较高,难度较大。由于分辨率提高,下游分析将变得更加复杂,也更容易得出错误的结论。
一般来说,scRNA-seq
与 bulk RNA-seq
一样,也需要裂解、反转录、扩增和测序,最后下机的数据也是 BCL
文件。
不同的是,scRNA-seq
还需要对细胞进行分离,将细胞物理分离到更小的反应室中,或以另一种形式对细胞进行标记,以便对获得的转录组数据进行回溯,找到对应的细胞。
大多数单细胞检测方法的不同之处主要在于单细胞的分离、转录本扩增以及不同的测序仪。
转录本定量
转录本定量是将测序后的 reads
数据与基因序列进行比对,并统计落在转录本区域内的 read count
。
转录本定量主要有两种方法:full-length
(全长)和 tag-based
(基于标签)。
full-length
全长测序方法与文库制备与 bulk RNA-seq
测序方法类似,检测整个 mRNA
分子(从 5'
端到 3'
端)完整的转录本信息。
这种方法提供了更全面的基因表达数据,可以解析不同的转录本变异和剪接事件。但是,该方法并不总是能均匀覆盖所有转录本,因此整个基因体的特定区域仍可能存在偏差。
全长测序仅限于 plate-based
测序协议。
tag-based
基于标签的测序方法只测量 mRNA
分子的一个小片段(标签),通常是靠近 3'
端或 5'
端的一部分。这种方法通过捕获和测序这些标签来定量基因表达水平。
基于标签的方案只能对转录本的 3'
或 5'
端进行测序。这样做的代价是无法覆盖整个转录本,因此很难将 reads
比对到整个转录本,也就很难区分不同的转录本。
不过,它们使用独特的分子标识符(UMI
),这有助于解决转录本扩增过程中的偏差问题。
转录本扩增过程是任何 RNA-seq
测序技术的关键步骤,以确保转录本足够丰富,便于质量控制和测序。
这一过程通常使用聚合酶链反应(PCR
),从原始的片段中复制一份拷贝。由于拷贝和原始分子无法区分,因此确定样本中原始分子的数量变得十分困难。
使用 UMI
是量化原始、非拷贝分子的常见解决方案。UMI
可用作分子条形码,由短的随机核苷酸序列组成,作为唯一标签添加到样本中的每个分子上。
UMI
必须在扩增之前的文库生成过程中添加。准确识别 PCR
重复序列对于分析扩增偏差非常重要。
所谓的扩增偏差(amplification bias
)是指在 DNA
或 RNA
扩增过程中,某些片段的扩增效率比其他片段更高或更低,从而导致测序结果中这些片段的相对丰度与原始样本中的实际丰度不一致的现象。
不同片段的相对丰度与实际样本中的丰度不一致,会影响基因表达量的准确性以及数据的完整性和可靠性。扩增偏差增加了数据分析的复杂性,需要更多的校正和归一化步骤来纠正偏差。
通过优化实验条件、使用 UMI
和多重扩增技术,以及在数据分析中进行标准化和归一化,可以有效减少扩增偏差的影响。使用 UMI
还可以对基因计数进行归一化处理,而不会降低准确性。
测序协议
按细胞分离方法不同,单细胞测序可以分为三类:
- 基于微流控,将细胞封装到水凝胶液滴中;
- 基于孔板,将细胞物理分离到孔板中;
- 基于商用
Fluidigm C1
微流控芯片,将细胞装入并分离到小型反应室中。
这三种方法在获取转录本的能力、细胞的数量以及许多其他方面都有所不同。
基于微流控
基于微流控的单细胞测序技术利用微流控芯片可将细胞捕获在水凝胶液滴内,从而将细胞分隔到单细胞反应室中,并进行高通量测序。微流控技术通过精确控制微尺度液体流动,实现单细胞水平的操作和分析。
以下是几种常见的基于微流控的单细胞测序技术及其特点
inDrop
InDrop 通过在微液滴内进行逆转录和条形码标记,实现高通量单细胞 RNA
测序。
Drop-seq
Drop-seq 通过将单个细胞和带有条形码的珠子封装到微液滴中,实现单细胞 RNA
测序。
10x Genomics Chromium
10x Genomics Chromium 系统利用微流控芯片和凝胶珠(GEMs
)进行单细胞捕获和条形码标记,实现高通量单细胞 RNA
测序。
技术对比
尽管这三种方案在细节上有所不同,但含有封装细胞的纳升大小液滴总是被设计成能同时捕获磁珠和细胞。
磁珠表面通常含有很多短的寡核苷酸序列,序列中包含 PCR
引物、barcode
(用于区分细胞或样本)、4-8bp
长的唯一分子标识符(UMI
,区分同一个细胞内不同的分子)和 poly-T
尾。
当细胞裂解时,细胞的 mRNA
会瞬间释放,被附在微珠上的寡核苷酸捕获。接下来,收集并破碎液滴,释放出附着在微颗粒上的单细胞转录组(STAMPs
)。然后进行 PCR
扩增和反转录,以捕获和扩增转录本。最后进行标记,随机切割转录本并连接测序接头,上机测序。
在基于微流控技术的方案中,只能收集细胞中约 10%
的转录本 Islam et al, 2014。这种低水平的测序足以对细胞类型进行可靠的鉴定。
在 Zhang et al, 2019 的研究中,对这三种技术进行了详细的对比。发现这三种基于微流控装置的方法都会产生特有的偏差,不同方案使用的微珠材料也不同。例如:
Drop-seq
使用脆性树脂制作珠子,因此珠子的包被率呈泊松分布;而 InDrop
和 10X Genomics
珠子可变形,因此珠子的包被率超过 80%
。
在 Drop-seq
中,捕获效率可能受到使用表面系固引物的影响。InDrop
使用的引物会随着光裂解而释放,而 10X genomics
会溶解珠子。这种差异也会影响反转录过程的位置。在 Drop-seq
中,反转录发生在珠子从液滴中释放之后,而 InDrop
和 10X genomics
的反转录发生在液滴内部。
10X Genomics
在灵敏度方面也有类似的优势。平均可以捕获 3000
个基因中的约 17000
个转录本,而 Drop-seq
捕获 2500
个基因中的 8000
个转录本,InDrop
捕获了 1250
个基因中的 2700
个转录本。
10X Genomics
的技术噪音最低,其次是 Drop-seq
和 InDrop
。
在珠子质量方面,10X Genomics
优于 inDrop
和 Drop-seq
,在后两个系统中的细胞条形码含有明显的错配。此外,10X Genomics
的有效条形码 reads
比例为 75%
,而 InDrop
和 Drop-seq
分别只有 25%
和 30%
。
10X Genomics
偏好捕获和扩增较短的基因和 GC
含量较高的基因,而相比之下,Drop-seq
偏好捕获和扩增 GC
含量较低的基因。
虽然 10X Genomics
在各方面都优于其他方案,但每个细胞的成本也高出约两倍。此外,除了珠子之外,Drop-seq
是开源的,因此在需要时可以更容易地调整方案。InDrop
是完全开源的,甚至珠子都可以在实验室中制造和修改。因此,InDrop
是三种方案中最灵活的一种。
优缺点
优点
- 可对大量细胞进行低成本高效率的测序,以确定组织的细胞组成和稀有细胞类型的特征
- 提高了单细胞捕获和处理的精确度,减少了交叉污染的风险
局限性:
- 与其他方法相比,转录本的检出率较低
- 只能捕捉
3'
,而不是完整的转录本
基于孔板
基于微孔板的方法通常是将细胞物理分离到微孔板中。
第一步是通过荧光激活细胞分选(FACS
)等方法对细胞进行分选,根据特定的细胞表面标记物对细胞进行分选;或者通过微量移液器对细胞进行分选。
然后将选中的细胞放入装有细胞裂解缓冲液的单个孔中,随后进行反转录。这样就可以在一次实验中分析数百个细胞,每个细胞可捕获 5000
到 10000
个基因。
基于孔板的测序方法包括但不限于 SMART-seq2
、MARS-seq
、QUARTZ-seq
和 SRCB-seq
。
技术对比
这些方案的多路复用能力各不相同。例如,MARS-seq
允许使用三个条形码级别,即分子、细胞和平板级标签,以实现强大的多重分析能力。
与此相反,SMART-seq2
不允许限制细胞数量的早期多路复用。
2020
年,Mereu
等人对各种方案进行了系统比较,发现 QUARTZ-seq2
比 SMART-seq2
、MARS-seq
或 SRCB-seq
每个细胞能捕获更多基因 Mereu et al, 2020,这意味着 QUARTZ-seq2
能很好地捕获细胞类型特异性标记基因,从而为细胞类型注释提供可靠依据。
优缺点
优点:
- 每个细胞可检测更多的基因,可进行深度特征描述。
- 可在文库制备前收集信息,如通过
FACS
分选,将细胞大小、所用标签的强度等信息与孔坐标联系起来。 - 可检测整个转录本。
缺点:
- 基于孔板的实验规模受到其单个处理单元的较低吞吐量的限制
- 相对于一些先进的微流控技术,孔板技术的灵敏度可能略低,特别是在检测低丰度分子时
Fluidigm C1
商用 Fluidigm C1
系统是一种微流控芯片,可自动将细胞装入小反应室并进行分离。
CEL-seq2
和 SMART-seq
(V1
版)在工作流程中使用了 Fluidigm C1
芯片,使 RNA
提取和文库制备步骤同时进行,从而减少了人力。
不过,Fluidigm C1
需要相当均匀的细胞混合物,因为细胞会根据其大小到达微流控芯片上的不同位置,这可能会带来潜在的位置偏差。
由于扩增步骤是在单个孔中进行的,因此可以进行全长测序,有效减少了许多其他单细胞 RNA-seq
测序方法的 3'
偏好。该方案一般也比较昂贵,因此主要用于对特定细胞群进行广泛检查。
优缺点
优势:
- 可检测全长转录本
- 可检测剪接变体和
T/B
细胞受体的多样性。
局限性:
- 只能对最多
800
个细胞进行测序 - 每个细胞的成本高于其他方案。
- 只能捕获约
10%
的提取细胞,因此该方案不适合稀有细胞类型或低输入细胞。 - 使用的芯片只能捕获特定大小的细胞,这可能会使捕获的转录本出现偏差。
Nanopore
长读长单细胞测序方法很少使用 UMI
或不进行 UMI
校正,但由于长读长测序仪的测序错误率较高,这导致了严重的问题。
ScNaUmi-seq (Single-Cell Nucleotide Unique Molecular Identifier sequencing
) 是一种高灵敏度和高特异性的单细胞测序技术,通过将纳米孔测序与分子标识符(UMI
)相结合来准确地定量核酸分子。
但是,这种方法需要两个单细胞文库(一个用于 Nanopore
测序,另一个用于 Illumina
测序),以便进行比较和校正。
scCOLOR-seq,这种方法通过计算核苷酸对在整个条形码长度上的互补性来识别没有错误的条形码。然后利用这些没有错误的条形码来校正其余的错误条形码。
此外,使用修改过的 UMI-tools
定向网络方法来校正 UMI
序列重复的问题。
优缺点
优势:
- 可以检测剪接和序列异质性信息
缺点:
- 纳米孔试剂价格昂贵。
- 细胞条形码错误率高。
- 根据不同的方案,条形码分配是以
Illumina
数据为指导的,需要两次测序检测。
总结
总之,我们需要根据研究目的选择不同的测序方案:
- 需要对特定细胞类型群体进行深入表征,基于孔板的方法可能更合适
- 基于微流控的方法可以更好地捕获异质混合物,允许对测序细胞进行更广泛的表征
- 如果预算是一个限制因素,所选择的方法应该更具成本效益和鲁棒性。
scRNA 与 snRNA
单细胞测序(Single-Cell Sequencing
)和单核细胞测序(Single-Nucleus Sequencing
)是两种广泛应用于基因组和转录组研究的技术。虽然它们都用于分析单个细胞或核的基因表达,但在样本处理、适用性、优势和局限性方面存在显著差异。
单细胞(scRNA
)分析并不总能对特定组织或器官(如大脑)的细胞类型提供无偏见的看法。在组织解离过程中,有些细胞类型比较脆弱,因此难以捕获。
此外,单细胞测序高度依赖于新鲜组织,因此很难利用组织生物库。
另一方面,细胞核对机械力的抵抗力较强,无需使用组织解离酶即可从冷冻组织中安全地分离出来Krishnaswami et al, 2016。
这两种方法对不同组织和样本类型的适用性各不相同,由此产生的偏差和不确定性仍未完全探明。
已有研究表明,细胞核能准确反映细胞的所有转录模式Ding et al, 2020。
在实验设计中选择单细胞还是单核细胞,主要取决于组织样本的类型。不过,数据分析时应注意,解离能力会对可能观察到的细胞类型产生很大影响。