前面已经讲解了: 单细胞分析实录(1): 认识Cell Hashing 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵 单细胞分析实录(3): Cell Hashing数据拆分 单细胞分析实录(4): doublet检测 单细胞分析实录(5): Seurat标准流程 单细胞分析实录(6): 去除批次效应/整合数据
这一节我们进入细胞类型注释的学习,总的来说,两条路线,手动注释和软件注释。我在实际处理的过程中,主要还是手动注释,软件的注释结果只作为一个参考,来辅助证实手动注释的结果是准确无误的。 相信看过几篇单细胞文献的小伙伴基本都会知道几种常见细胞大类的marker,我们在注释的时候用这些marker就可以基本确定细胞大类了。另外,以SingleR为例,对于细胞大类的注释还算准确,当然也没有到很准确的程度,我试过更换SingleR里面不同的参考集,最后得到的大类注释结果一致性不到80%。对于细胞小类的注释,软件就更加无法胜任了,我几乎没有看过高分的文献会用SingleR的小类注释结果。当然不排除随着单细胞研究的普及和深入,以后能有更准确的软件出现。 接下来,我以上一节的数据为例,走一遍我的分析流程。
之前的数据呈现出了16个cluster,至于resolution参数的选择,我的原则是能在降维图上分开的细胞亚群,能有它自己的cluster label,并且成团较好,较紧致的一群细胞没有必要再强行分群(比如上图的第4群)。 这16个cluster不一定都会用到,因为doublet、细胞数太少等原因,可能还得去掉。 我推荐用常见的marker先区分一下,大概能知道cluster对应什么类型。这里用到的marker都是在文献里面经常出现的,我自己也整理了一份更全一点的细胞类型marker清单,有需要的可以在公众号后台说明。
celltype_marker=c(
"EPCAM",#上皮细胞 epithelial
"PECAM1",#内皮细胞 endothelial
"COL3A1",#成纤维细胞 fibroblasts
"CD163","AIF1",#髓系细胞 myeloid
"CD79A",#B细胞
"JCHAIN",#浆细胞 plasma cell
"CD3D","CD8A","CD4",#T细胞
"GNLY","NKG7",#NK细胞
"PTPRC"#免疫细胞
)
VlnPlot(test.seu,features = celltype_marker,pt.size = 0,ncol = 2)
ggsave(filename = "marker.png",device = "png",width = 44,height = 33,units = "cm")