由于样本类型特异性,单细胞转录组数据分析结果中细胞聚类后的细胞群被标记为 Cluster 0,1,2……n;细胞群注释是整个单细胞分析的基础,是赋予数学算法聚类结果以生物学意义的关键步骤。本篇文章通过一篇发表于Nature Protocols(IF:17.021)上的文章给大家分享单细胞测序的细胞注释策略,文章名为 Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods。
单细胞转录组数据分析中细胞注释的一般工作流为从测序数据到生成一个完整的带注释的细胞分群图(图1),分析流程主要有三个步骤:自动注释、人工注释和验证(图2)。
图1 单细胞转录组图谱
图2 细胞注释工作流程
1 自动注释
此方法简单、快速,但对细胞亚型的注释效果有限,难点在于获取高质量的参考数据。
自动注释使用一组预定义的“标记基因”(比如在已知细胞类型中特异表达的基因)或参考单细胞转录组数据(经过专业注释的单细胞图谱),通过将单个细胞或细胞簇的基因表达模式与已知细胞类型的基因表达模式相互匹配来识别和标记单个细胞或细胞簇,注释的时候会有一个统计学的检验,置信度的得分(图3)。目前自动注释有2种主要的方法。
01 基于"参考 "数据集自动注释
将需要注释的 scRNA-seq 数据(“ query "数据集)与现有的、相似的、经过专业注释的 scRNA-seq 数据集(“reference "数据集)进行比较。参考数据集可以从GEO,Single Cell Expression Atlas(SCEA),大型细胞图谱项目等获取。代表性工具有scmap(快速),SingleCellNet(慢但准确性高),SingleR(拥有较多且合理的参考数据)
当一个cluster内存在注释冲突时,要考虑:
1)细胞亚型 :把该cluster再单独细化分析
2)中间细胞状态或基因表达梯度:表达梯度表示细胞群中存在的连续差异,这可能代表细胞周期、免疫激活、空间模式或瞬态发育阶段等状态 ,此情况需要人工注释
3)多细胞 :cluster 一般比其他cluster小但表达更多基因,DoubletFinder、Scrublet等工具可识别、过滤
尽管自动细胞注释方法方便且系统化,但它需要适当的参考数据库,注释的结果有时也并不是高置信度注释。当这些方法导致置信度较低、注释细胞类型比例异常或缺失时,就需要专业的人工注释。
02 基于标记基因自动注释
使用已知的标记基因,去注释细胞(群),marker基因需是在特定细胞(群)中特异且一致表达的基因。标记基因和细胞类型之间的已知关系可从数据库中获得,如 SCSig、PanglaoDB 和 CellMarker,或从文献中检索获得;代表性的注释工具有 SCINA(Single cells)、AUCell(Single cells)和GSVA(Clusters of cells),此方法注释结果(准确性、精度)高度依赖于marker的选择。
如下图a为使用SCINA软件基于scRNA-seq测序数据所得marker对PBMCs细胞注释结果,图b为基于文献所得marker的注释结果,图c Sankey plot 直观展现两种来源marker细胞注释结果的变化,可见naive cytotoxic cells与NK cells的注释混淆:
图3 依赖于使用的标记基因自动注释结果
2 人工注释
以自动注释的结果为辅助,基于其他数据和经验进行人工判读,是细胞注释的金标准,但速度慢、繁杂,并且可能是主观的
基于已知细胞类型的 marker 表达
若已知细胞类型的多个 marker 在某个 cluster 中特异性高表达(差异分析、t-SNE/UMAP 图、热图、气泡图等),一般可以将该 cluster 标记为该细胞类型。
可能存在的情况及解决方法:
• marker 的数量有限;
1)cluster 可能不表达任何已知的细胞类型 marker;
2)marker 在多个 cluster 中表达且不具有明显的特异性
此情况需要通过文献检索或挖掘单细胞转录组数据寻找更多的 marker 使用
• cluster 可能表达一种以上细胞类型的 marker
DoubletFinder、Scrublet等工具检测是否为多细胞 → 移除后仍存在,考虑细胞亚型
功能分析
如果基于上个方法,仍然无法完成细胞注释,则需要对每个cluster进行富集分析,找到cluster-specific pathways,帮助判断该cluster可能的细胞类型。
一些细胞类型(包括新的细胞类型)可能很难注释,可以根据它们表达的基因功能来定义细胞类型
其他说明
• 注释梯度通常比较困难,因为很少特异表达基因,需依赖人工注释。通常更容易标记梯度的末端,并用末端marker基因表达的递增/递减来表征中间阶段。如下,跨细胞类型的梯度可以通过以下方式来识别:标记基因在不同的cluster中表达水平不同(a),在主成分分析(PCA)基因表达重叠图中观察细胞类型之间标记基因表达的清晰梯度(b),以及在t-SNE图中识别跨cluster的密切相关的细胞类型(c)。
图4 识别和可视化细胞类型梯度
• 同质/相似的细胞状态/细胞类型会共享marker。例如,T 细胞亚型会表现出共同的 T 细胞marker而其特异性marker会被掩盖,此时,建议对该细胞群单独再聚类,识别subtype-specific markers
• 注意实验批次效应
• 识别组织滞留细胞,可以在湿实验中通过灌注步骤先从组织中移除passenger cells,或者干实验分析时从组织图谱中减去该样本的PBMC细胞
• 细胞注释时,注意使用标准术语(参考Cell Ontology)
• 除自动注释和人工注释外,还可以寻求外部验证(专家咨询、实验验证)
3 验证
上述工具和方法可以为 scRNA-seq 数据提供可靠的细胞类型标记。实际上,基于 mRNA 检测只能部分定义细胞类型和功能,确认新的细胞类型必须要经过实验验证。例如可以使用T细胞受体(TCR)和 B 细胞受体(BCR)克隆分型来细化组织中免疫细胞的类型。同时,借助单细胞 ATAC-seq 和空间转录组共同验证注释的细胞类型。另外,肿瘤组织的突变对于区分癌症和正常细胞类型很重要,结合 scRNA-seq 数据分析拷贝数变异(CNVs)的情况,CNV 的变化会导致基因组上连续基因的一致的上调(扩增事件)或下调(缺失事件)表达值。
4 注意事项
如何选择合适的聚类分辨率(clustering resolution):
• 基于细胞注释结果,通过调整聚类分辨率使得聚类和注释结果更明晰
• 逐渐增加或降低分辨率,直到确定仍然表现出独特差异表达基因的最大cluster数
• scClustViz、Seurat、clustree 等辅助工具使用
如何减少背景污染:
实验过程中可能会引入来自一种或多种细胞类型的环境RNA (ambient RNA),其中的 marker 可能会影响真实marker/细胞类型的确定,可以使用SoupX、CellBender等工具来估计和校正背景污染。