前言:细胞注释还是得靠多看文献,经验积累
细胞注释是进行深入分析的第一步,但是却受到基础分析的严重影响。细胞类型注释之前必须严格进行细胞质控,低质量和双细胞的存在会严重干扰注释进程。其次,也要选择一个合适的聚类精度,精度低:稀有细胞类型可能与更大的簇合并,或者相关的细胞亚型可能相互合并;精度高:单个细胞类型可能被分割成多个clusters,具有很少的独特标记,这通常是实验噪声而不是区分的结果,如果一个cluster识别到了多个细胞类型,可以提高分群精度或者在分群分析。细胞注释的是否准确会严重影响下游的分析,无论涉及到细胞通讯、轨迹、CNV分析等等,都要求细胞类型的准确注释,注释不准会分析出很多无效甚至错误的结果,这方面需要不断地阅读和总结相关文献和实验的内容,对自身研究的领域有一个深刻的认识。
1、Marker gene 数据库
1)CellMarker
优点:可以根据研究部位,查看所需要的细胞类型的marker基因
缺点:1、支持的文献数不多,没有一个万能的区别标准,还是得靠自己的经验,结合通路富集和相关性分析等
2、marker gene 太过冗余,基本上只要是单细胞数据的矩阵中有的基因就被当成细胞标志物
3、同一物种同一组织同一种细胞类型的收集到的marker gene多,区别性不大
Marker gene的来源:1、单细胞转录组水平(推荐使用这类Gene);2、实验验证,即蛋白水平。(两种来源差异较大,具体情况具体分析)
注意:gene symbol 和cell marker 可能不相同,因为gene symobl有一个官方名和多个别名。cell marker是其中一个,可以在该页面的detail列查看或者PubMed的gene库中寻找。
2)panglaoDB
###网页版的单细胞转录组数据库,权威性高于Cellmarker
数据库内容:
1、可以看到一些单细胞注释的例子<sample>
2、可以查询单细胞marker基因的数据库<cell type marker>
优点:
1、与CellMarker相比,多了一些参数:UI(可信度的标准,越大说明越可靠),原则上优先选择特异性较高的marker gene定义细胞
2、更加适合处理单细胞数据
缺点:
1、收录的组织类型较少
2、因为各个marker的应用率不高,文章支持度不够,里面的参数仅供参考,还是得靠先验知识
3、鉴于文章所用的注释方法的多样性,尽管Seurat引用率最高,但是在高分文章中通常多方法连用来挑选最佳聚类结果,且seurat在高分文章中出现频率不高。我们现在所学习的流程无法重现文章中的聚类结果,所以依据文章的marker来定义我们的聚类结果,其实是一个挑战。
2、细胞注释
注释之前,得了解一下降维聚类的常见方法:PCA,t-sne,umap三种(前者为线性降维,推荐降到至少50维;后者为非线性降维,且umap方法既能保留全体特征,也能保留局部特征,首选umap)
1)automatic cell annotation:不推荐,不是很准
1、基于marker的细胞注释(也需要人工挑选marker基因,不比人工注释轻松多少)
AUCell,SCSA,GSEA/GSVA等软件
2、基于参考基因集的细胞注释
singleR(主要做的是肿瘤免疫方面),Cell-id(跨物种和检测稀有细胞类型)
2)expert manual cell annotation:金标准
专业的人工注释:
通常被视为细胞注释的金标准;然而注释的过程是缓慢的而且花费大量精力,其中也包括一定的主观性。人工注释要参考标记基因表达的图有t-SNE、UMAP和热图等,如果一个已知细胞类型的许多标记基因在一个细胞簇中高度表达,那这个细胞簇基本定义为该细胞类型。
人工注释面临的问题:
(1)众所周知的标记数量通常太少,无法完全注释scRNA-seq数据集,并且一些众所周知的标记在scRNA-seq数据集中可能不像预期的那样具有特异性。
(2)其他标记通常必须通过搜索文献和挖掘现有单细胞转录组数据以获取与查询数据集相关的基因表达特征来手动找到,需要消耗大量的时间和精力。
(3)必须同时使用多个基因来区分数据中的细胞类型和其他细胞类型
(4)如前所述,数据库marker的冗余,兼容性差。
(5)在某些情况下,簇可能不表达任何已知细胞类型的标记(可能包含质量差的细胞或代表新的细胞类型)。
(6)可能表达一种以上细胞类型的标志物(双细胞)。
人工注释需要考虑的其他思路:
(1)驱动细胞命运的主要转录因子通常会产生更可靠的基因表达标记
(2)scRNAmarker优先级最高,蛋白标志物次之。(器官、组织、疾病类型)。
(3)marker不足以注释细胞类型,选择差异基因来进行功能注释。Pathwayenrichmentanalysis(GSVA、ssGSEA)
(4)新的细胞类型,进行细胞功能的注释,其他方式的验证(相关性等)。
关于新的细胞类型和不同细胞层级的注释的注释策略:
新的细胞类型和细胞层级,只能以来人工来注释,虽然可以借助一些生信方法进行辅助,但是软件的分析结果有可能误导对细胞类型的判断。
这部分分析,重要的是要确定该细胞类型是稳定的细胞类型还是包含多种细胞状态(即细胞层级)。
稳定的细胞类型特征为markergene表达相对稳定,不会出现大的波动。而细胞层级则显示为一连串的细胞和细胞状态(表达梯度表示细胞群中存在的连续差异,这可能是细胞周期、免疫激活、空间模式或瞬时发育阶段等状态),而显著的特征就是很少表达独特的标记基因。对于这种细胞状态的注释,通常很容易标记梯度的末端,然后使用特定基因来表征中间阶段,该基因在梯度上增加或减少。提取梯度中的细胞并对它们执行主成分分析(PCA)通常是梯度的有用可视化,因为它保留了细胞之间的大范围距离。
相似细胞类型的注释
相似细胞类型,例如T细胞亚型,所有T细胞亚型都表现出共同的T细胞标志物是很常见的;而亚型标记物通常在T细胞标记物中进行扩充。方法也很简单1)分压群;2)高度相似的细胞类型之间的非常细微的区别可能在转录上不可见,并且可能仅在其他基因组层中可见,例如染色质状态(ATAC,WNN)。
注释验证
对于注释到的结果,需要一些其他的方法来进行验证。例如:
(1)免疫细胞:T细胞---TCR辅助验证B细胞----BCR辅助验证(NaiveB细胞表达IgM和IgD重链,而成熟B细胞通过V(D)J重组进行抗体类别转换,表达IgG、IgA或IgE重链)
(2)功能分析(细胞因子分泌、增殖能力和细胞毒性潜力分析).
(3)空间转录组验证(单细胞空间联合,细胞的空间表达模式)
(4)多组学验证(RNA+ATAC,WNN,或者联合单细胞蛋白组)
(5)肿瘤细胞验证(单细胞空间联合,CNV)
(6)在对细胞进行聚类之前专门识别稀有细胞类型的标记.注释验证往往在下游分析时进行矫正,不同的个性化分析对于细胞注释的要求很严格,不断细化分析的过程中,对生物学背景、相关文献的经验积累要求越高,而这方面的内容,也正是不断解决生物学问题的过程。