CuratedAtlasQueryR

对R包的介绍:这篇博文是由生物导体社区经理Maria Doyle和CuratedAtlasQueryR的首席开发人员Stefano Mangiola共同撰写的。

我们很高兴宣布推出CuratedAtlasQueryR包!数百万细胞现在就在您的指尖,因为可以在Bioconductor SingleCellExperiment数据结构中探索和检索协调和重新标记的CELLxGENE单细胞人类图谱。

在这里插入图片描述

这个包创建的目的

人类细胞图谱是一项大规模的单细胞测序计划,旨在绘制人体内的每种细胞类型。它有可能彻底改变我们对人类细胞生物学和免疫系统的理解。数据协调、管理和有效的数据查询对于从这些复杂的图谱中提取知识至关重要。CELLxGENE人类细胞图谱提供了一个可探索和可搜索的人类图谱。然而,CELLxGENE在数据集之间并不协调。

为了通过R对数据集、组织和疾病进行探索和分析,我们开发了CuratedAtlasQueryR,这是一种细胞解析查询系统,允许研究人员根据细胞类型、来源组织和人口统计信息选择细胞。该包将提交给Bioconductor。我们还创建了即将推出的CuratedAtlasQueryR的Python版本。

这个包和别的包的区别

我们使用现有的Bioconductor包cellxgenedp作为CELLxGENE中包含的数据集的下载源。

然后,我们对数据(免疫细胞标签)进行协调、整理和重新标注。

列类,以便它们可以表示为唯一的表。

我们对整个图谱中最常见的列进行了子集(可以通过cellxgenedp包检索特定数据集的完整列)。

我们合并了样本标识符。

我们统一了组织标签。

我们在一个共同的本体下统一了细胞类型标签。

我们提供了基于共识的免疫细胞标签和置信标签。在原始注释和三个独立参考文献(摩纳哥、BLUEPRINT和方位角PBMC)之间建立了共识。

我们引入了原始CELLxGENE元数据中不存在的自定义列。

tissue_harmonized:用于更好过滤的更粗糙的组织名称

age_days:与年龄对应的天数

cell_type_hharmonized:使用Seurat Azimuth和SingleR的原始注释和三个新注释的共识调用身份(针对免疫细胞)

confidenceclass:表示单元类型和谐程度的序数类。1表示完全一致,2表示四分之三,依此类推。

cell_annotation_azimuth_l2:方位角单元格注释

cell_annotation_blueprint_singler:使用blueprint引用的singler单元格注释

cell_annotation_blueprint_monaco:使用monaco引用的SingleR单元格注释

sample_id_db:内部使用的样本细分

file_id_db:内部使用的文件细分

.sample:样本ID

.sample_name:如何定义样本

与cellxgenedp不同的是,我们可以基于注释跨数据集查询特定的单元格,元数据探索和数据下载在磁盘上完成,无需加载到内存中。

可以以Bioconductor SingleCellExperiment格式探索和检索协调和重新标记的CELLxGENE单细胞人类图谱。

我们在包中使用DuckDB,因为它的速度快,并且在处理大量数据时磁盘占用低。

如何使用这个包

通过使用tidyverse探索2800万个单元(磁盘上)的集成元数据,开始使用CuratedAtlasQueryR。该图谱包括40个组织的344项研究,提供原始丰度和百万分之数

第一步

library(CuratedAtlasQueryR)

cache_dir = “~/tmp” 如果不想使用默认值,请指定缓存目录

metadata <- get_metadata(cache_directory = cache_dir)#获取metadata

metadata

第二步

使用tidyverse过滤感兴趣的细胞,无论是特定的数据集还是跨组织和疾病的细胞类型。CuratedAtlasQueryR可以很容易地找到你要找的东西

metadata |>
dplyr::filter(
ethnicity == “African” &
stringr::str_like(assay, “%10x%”) &
tissue == “lung parenchyma” &
stringr::str_like(cell_type, “%CD4%”)
)

第三步

收集感兴趣的单元格的singlecel实验。我们的对象使用HDF5 format来保持R会话的轻便,使其更容易处理更大的数据集。

metadata |>
dplyr::filter(
ethnicity == “African” &
stringr::str_like(assay, “%10x%”) &
tissue == “lung parenchyma” &
stringr::str_like(cell_type, “%CD4%”)
) |>
get_SingleCellExperiment(cache_directory = cache_dir)

第四步

使用CuratedAtlasQueryR和tidySingleCellExperiment,只需几行代码就可以在疾病、组织和数百个数据集中检查您最喜爱的基因和细胞类型的转录丰度!

library(tidySingleCellExperiment)
library(ggplot2)

metadata |>

*# Filter and subset
filter(cell_type_harmonised==“cd14 mono”) |>

# Get counts per million for NCAM1 gene
get_SingleCellExperiment(assays = “cpm”, features = “HLA-A”, cache_directory = cache_dir) |>

# Plot (styling code is omitted)
join_features(“HLA-A”, shape = “wide”) |>
ggplot(aes( disease, HLA.A,color = file_id)) +
geom_jitter(shape=“.”)
在这里插入图片描述

metadata |>

# Filter and subset
filter(cell_type_harmonised==“nk”) |>

# Get counts per million for NCAM1 gene
get_SingleCellExperiment(assays = “cpm”, features = “NCAM1”, cache_directory = cache_dir) |>

*# Plot (styling code is omitted)*

join_features(“NCAM1”, shape = “wide”) |>
ggplot(aes( tissue_harmonised, NCAM1,color = file_id)) +
geom_jitter(shape=“.”)

t (styling code is omitted)*
join_features(“NCAM1”, shape = “wide”) |>
ggplot(aes( tissue_harmonised, NCAM1,color = file_id)) +
geom_jitter(shape=“.”)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-68OcThE2-1677761914931)(C:\Users\pc\AppData\Roaming\Typora\typora-user-images\1677760443461.png)]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云归兮星辰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值