[大笑R][满月R][微笑R]需要找我们 专研生信
单细胞转录组数据中比较核心且难以解决的事情是细胞注释,而细胞注释(Marker-based annotation)的质量又很大一部分取决于marker的数量和质量,我们常常苦于从何处寻找以及如何使用这些marker,上篇文章里提到的自动化注释工具ScType是将CellMarker和PanglaoDB数据库进行整合过滤后作为参考,对于我们来说难点在于如何实现其整合思想(关键在于各数据库中对细胞类型的命名缺乏统一和规范),以及如何支持更多的物种。所以,此时如果有个更全面且规范的数据库...
2022年,北京基因组所(国家生物信息中心)发布细胞分类库Cell Taxonomy:
Cell Taxonomy (https://ngdc.cncb.ac.cn/celltaxonomy), a comprehensive and curated repository of cell types and associated cell markers encompassing a wide range of species, tissues and conditions.
Cell Taxonomy 数据源于4,299篇文献、15个相关数据库(Cell Ontology、CellMarker、PanglaoDB、OnClass、Human Cell Atlas...)和单细胞测序数据研究(约350万个细胞)的整合,目前共收录3,143种细胞类型及26,613个细胞标志物(cell marker),覆盖34个物种的387种组织和257种生理/病理状态。
[大笑R]图一
Cell Taxonomy 通过 Cell Ontology 数据库提供了结构化、标准化的细胞类型标注,通过整合 CellMarker、PanglaoDB 等数据库、文献和单细胞研究提供了大量的细胞类型相关的marker,有利于细胞类型注释和分析的便捷性及标准化。
举个例子,PanglaoDB 数据库中的CD27是 B cells memory 的 marker,而 CellMarker 中该细胞类型名为 Memory B cell,如果整合到一起应该叫啥呢?对于更复杂且难以判断的细胞类型,又该如何识别并统一呢?在 Cell Taxonomy 中给出了答案,以 Cell Ontology ID 为准,CL:0000787(memory B cell),来自于不同数据库的细胞类型名称在此完成统一:
[大笑R]图二
该数据库除了提供开源数据,也提供了一系列的查询和分析工具,可参考该团队发表于 Nucleic Acids Research的文献:https://doi.org/10.1093/nar/gkac816
https://ngdc.cncb.ac.cn/celltaxonomy/static/file/Cell_Taxonomy_resource.txt
#生信分析 #科研指导 #单细胞测序 #生信代做