单细胞分离--测序原理
10X Genomics采用Drop-Seq技术, 横向孔道逐个导入凝胶微珠Gel beads,第一个纵向道输入细胞。当凝胶微珠和细胞碰撞会被吸附在微珠上,然后通过微流控技术运送到第二个纵向通道(“油管”)。这时就会形成一个个的油滴GEMs(一个油滴就是一个凝胶微珠,也就是一个单细胞),然后收集在EP管中。每一个凝胶微珠都布满了不同的Barcode和UMI连接的序列,然后再加上PolyT就形成了像“刺”一样的捕获抓手,随后细胞裂解,利用3'端 poly(A) 碱基互补特定抓取mRNA构建转录文库。据说可以7分钟内完成100~80,000个细胞的捕获
简而言之:一个油滴 = 一个细胞(单细胞) = 一个RNA_Seq
文库构建
read1:主要用来定量
read2:真正需要测序的mRNA序列
Barcode:用于标记每一个细胞
UMI:标记每一个细胞当中的每一个转录本(即标记基因)
PolyT:用于捕获PolyA尾巴的mRNA,进行反转录反应
10X genomics单细胞测序通过Barcode来标记细胞,UMI 来标记转录本,这样与参考基因比对后就可以定量细胞以及基因的数量
备注:使用 UMI 计数方法( UMI 计数,是指在建库过程中,通过在引物上,增加随机序列,则对于同一种 mRNA 连上同样的 UMI 概率几乎为 0,则我们可以忽略由于 PCR 造成的误差,对于一种 mRNA,测到的 UMI 数量可以近似看成 mRNA 的表达个数)
细胞的质控(非reads的质控)
由于每个单细胞都是独特的,不可能开展重复实验并评估噪音。因此,必须采取一些质量控制手段,以确保数据的可靠性。专家建议,向每个细胞裂解液中加入已知序列和数量的合成mRNA,如外源RNA对照联盟(ERCC)开发的加标RNA(10X genomics 官网有提供ERCC相关的参考基因组下载)。这些RNA的读数将提供样本间差异的信息。
细胞的过滤(非reads的过滤)
根据基因的表达量等特征,对细胞进行过滤,通常的做法就是指定一个阈值,比如要求一个细胞中检测到的基因数必须大于100,才可以进入到下游分析,如果小于这个数字,就过滤掉该细胞。需要强调的是,在设定过滤的阈值时,需要人为判断,这样的设定方式会受到主观因素的干扰,所以往往都会指定一个非常小的过滤范围,保证只过滤掉极少数的离群值点。
细胞聚类
细胞聚类允许我们推断细胞类型。根据细胞基因表达谱的相似性对细胞进行分组,得到细胞簇。通过距离度量来确定表达谱相似性,通常将降维结果作为输入。相似性评分的一个常见示例是欧几里德距离,该距离在 PC 缩减的表达空间上计算。在R包Seurat中,不是直接对所有细胞进行聚类分析,而是首先进行PCA主成分分析,然后挑选贡献量最大的几个主成分(也相当于做了特征选择),用挑选出的主成分的值来进行聚类分析。聚类分析是下游分析的主要和首要步骤,因为聚类后,各个细胞就有了groupinfo(即标签),可用于后续的差异表达分析,找出各细胞组间显著差异的genes,然后做GO,KEGG富集分析。