导语
与反映群体细胞或整体组织基因表达情况的普通转录组测序(Bulk RNA-seq)不同,单细胞(核)转录组测序(single-cell RNA-seq,scRNA-seq;single-nucleus RNA-seq,snRNA-seq)是针对单个细胞(核)内的转录本进行扩增和高通量测序的一项新技术。单细胞(核)转录组测序可有效避免单个细胞的异质性被大量细胞的均质化所掩盖,在揭示复杂细胞群体的异质性、发现新的稀有细胞类型、了解特定生命过程(发育、疾病演化、抗逆、次生代谢产物合成等)的表达调控机制等方面具有显著优势,是当下组学研究的热门领域之一。
图 单细胞(核)转录组测序实验流程
单细胞(核)转录组测序系统的关键技术是利用上百万独特的Barcode标记不同的样品细胞(核)。凌恩生物有自主研发的细胞核提取技术,提取经验丰富。有专业团队负责跟进每一个项目,从细胞核制备、建库及测序、后续生物信息分析,直至为客户提供满意的结果。
凌恩生物已经完成的植物单细胞核转录组项目:
本期主要介绍单细胞核转录组基础分析内容。
图 植物单细胞(核)转录组分析内容
1、细胞质量评估与过滤
单细胞转录组测序理论上的反应体系是一个细胞与一个带有Barcode信息的磁珠结合,形成单个细胞的“油包水”结构。但在实际情况中,会产生一定比例的油包水结构中没有细胞或含有2个及以上细胞的情况。另外细胞死亡或细胞膜破碎时,线粒体基因的比例会上升。因此在获得细胞基因表达矩阵后,根据每个细胞中表达的基因数(nFeature_RNA)、UMI数(nCount_RNA)和线粒体基因表达量等信息,进一步过滤质控,保证后续分析结果的可靠和准确。
图 质控前(左图)和质控后(右图)各个样本细胞指标信息
图 质控前(左图)和质控后(右图)的二维散点图
注:图中不同颜色的点代表来源不同样本的细胞。横坐标为UMI数量,纵坐标为基因数量。图上方的数字为两者的皮尔森相关系数。
2、单细胞亚群分类及可视化
对下机原始数据质控过滤,拿到过滤后的细胞后,可以进行进一步了解样本中有哪些类型的细胞,每个细胞分别属于哪种细胞类型,甚至细胞亚型。
首先是对细胞类群进行聚类分析,基于细胞亚群分类的结果,采用t-SNE(t-Distributed Stochastic Neighbor Embedding)或者UMAP(Uniform Manifold Approximation and Projection)两种非线性降维方法进行可视化。t-SNE基本原理是通过基于具有多个特征数据点的相似性识别观察到的模式来找到数据中的规律,将高维空间下样本之间的欧式距离,通过基于student t分布随机近邻嵌合的条件概率来重新计算样本距离,使得在低维度空间内的样本呈现明显分隔的集群。UMAP是一种建立在黎曼几何和代数拓扑理论框架上的可视化降维算法,使用K最近近邻 (K-nearest neighbor,KNN) 方法,并使用随机梯度下降来优化结果,计算高维空间中点之间的距离,将其投影到低维空间。
图 所有样本细胞分群tSNE图
图 所有样本细胞分群UMAP图
3、Marker基因鉴定及可视化
单细胞测序中十分重要的一个步骤就是使用marker基因将细胞分类为特定的细胞类型,因此如何找到合适的marker基因成为了单细胞测序结果分析中的关键问题。在单细胞转录组数据分析过程中,可以通过不同样本或不同细胞类型/亚型间的差异分析鉴定出某个细胞类群/亚群的特征基因,再结合已知Marker基因精确鉴定细胞类型及细胞功能。(新)Marker基因的挖掘有助于深入阐明细胞异质性情况,同时,对于识别未知细胞类型的细胞群体有重要作用。
通过一个亚群与剩余其他亚群的所有细胞进行比较分析,以获得每一个亚群的高表达标记基因。一般情况对Marker基因筛选参数为:logfc.threshold = 0.25,min.pct = 0.1,only.pos = TRUE,test.use = "bimod",p_val_adj < 0.01。其中每行代表一个标记基因,每列代表一个细胞,细胞按类型排列并用不同颜色表示。
图 标记基因在各细胞亚群表达热图
对各个亚群的Marker基因,选取差异倍数最高的作图,图中每个点代表一个细胞,横坐标为细胞亚群编号,纵坐标为细胞对应标记基因的表达量。
图 细胞亚群Top10 Marker基因小提琴图
图 细胞亚群Top10 Marker基因气泡图
图 细胞亚群Top10 Marker基因Ridge山脊图
图 细胞亚群Top10 Marker基因tSNE图
图 细胞亚群Top10 Marker基因UMAP图
4、GO和KEGG富集分析过滤
GO和KEGG富集分析可以帮助研究者了解一组基因在哪些功能和生物过程中富集,从而从整体上理解基因集的生物学意义。
使用GOATOOL(https://github.com/tanghaibao/goatools)对获得的单细胞转录组差异基因进行GO富集分析,使用方法为Fisher精确检验。为控制计算的假阳性率使用FDR多重检验方法对p值进行了校正,通常情况下,当p值≤0.05时,认为此GO功能存在显著富集情况。
使用KOBAS(http://kobas.cbi.pku.edu.cn/kobas3/?t=1)进行KEGG PATHWAY富集分析,计算原理同GO功能富集分析,p值以0.05为阈值,满足此条件的KEGG通路定义为在差异表达基因中显著富集的KEGG通路。
图 GO富集图
图 KEGG富集图
图 GO富集 heatmap 图
图 GO富集柱状图
图 KEGG富集分析图
5、细胞类型鉴定
细胞类型的鉴定分析在单细胞分析中非常重要,后续的很多分析都是基于感兴趣的细胞类型进行进行的。细胞类型注释是基于不同细胞类型中特异表达的marker基因来进行的。主流的细胞类型鉴定有两种方式:第一种基于已知细胞类型的Marker基因,通过软件或者人为鉴定Marker基因所对应的细胞类型;第二种是基于现有的细胞类型参考表达数据集,计算待鉴定细胞的表达谱与参考数据集的相关性来鉴定细胞类型。
一般采用被引用率较高的SingleR软件进行细胞类型注释,基本原理是通过计算细胞与内置数据库的相关性来判断细胞类型,每个点代表一个细胞,不同细胞类型以不同颜色区分。鉴定的结果如下:
图 细胞鉴定结果tSNE/UMAP图
更多高级分析敬请期待~