SeuratData 是一个使用 R 的内置包和数据管理系统以 Seurat 对象的形式分发数据集的机制。 它为用户提供了一种访问 Seurat vignettes 中使用的数据集的简便方法。
安装
SeuratData 的安装可以通过 devtools 完成。
devtools::install_github('satijalab/seurat-data')
入门
加载 SeuratData 时,将显示所有可用数据集的列表(这类似于 tidyverse 等其他元数据包以及用于创建每个数据集的 Seurat 版本)。 可以使用 suppressPackageStartupMessages
抑制此消息。
> library(SeuratData)
── Installed datasets ───────────────────────────────────────────────────────────── SeuratData v0.1.0 ──
✔ cbmc 3.0.0 ✔ panc8 3.0.0
✔ ifnb 3.0.0 ✔ pbmc3k 3.0.0
───────────────────────────────────────────────── Key ──────────────────────────────────────────────────
✔ Dataset loaded successfully
使用 AvailableData
查看所有可用数据集的清单; 随着新数据集上传到我们的数据存储库,此清单将更新。
> AvailableData()
Dataset Version Summary species system ncells tech notes Installed InstalledVersion
cbmc.SeuratData cbmc 3.0.0 scRNAseq and 13-antibody sequencing of CBMCs human CBMC (cord blood) 8617 CITE-seq <NA> TRUE 3.0.0
hcabm40k.SeuratData hcabm40k 3.0.0 40,000 Cells From the Human Cell Atlas ICA Bone Marrow Dataset human bone marrow 40000 10x v2 <NA> FALSE 3.0.0
ifnb.SeuratData ifnb 3.0.0 IFNB-Stimulated and Control PBMCs human PBMC 13999 10x v1 <NA> TRUE 3.0.0
panc8.SeuratData panc8 3.0.0 Eight Pancreas Datasets Across Five Technologies human Pancreatic Islets 14892 SMARTSeq2, Fluidigm C1, CelSeq, CelSeq2, inDrops <NA> TRUE 3.0.0
pbmc3k.SeuratData pbmc3k 3.0.0 3k PBMCs from 10X Genomics human PBMC 2700 10x v1 <NA> TRUE 3.0.0
pbmcsca.SeuratData pbmcsca 3.0.0 Broad Institute PBMC Systematic Comparative Analysis human PBMC 31021 10x v2, 10x v3, SMARTSeq2, Seq-Well, inDrops, Drop-seq, CelSeq2 HCA benchmark FALSE 3.0.0
可以使用 InstallData
安装数据集; 此函数将接受数据集名称(例如 pbmc3k
)或相应的包名称(例如 pbmc3k.SeuratData
)。 InstallData
将自动附加已安装的数据集包,以便立即加载和使用数据集。
> InstallData("pbmc3k")
使用 data
函数加载数据集
> data("pbmc3k")
> pbmc3k
An object of class Seurat
13714 features across 2700 samples within 1 assay
Active assay: RNA (13714 features)
数据集文档和信息
提供的所有数据集都有为其构建的帮助页面。 使用 help
访问这些页面。
> ?pbmc3k
> ?ifnb
这些帮助页面的示例部分提供了用于生成每个数据集的步骤的完整命令列表。
包中还经常捆绑有引文信息。 可以通过 citation
来访问引文信息,输入包的名称(不是数据集名称)。
> citation('cbmc.SeuratData')
To cite the CBMC dataset, please use:
Stoeckius et al. Simultaneous epitope and transcriptome measurement in
single cells. Nature Methods (2017)
A BibTeX entry for LaTeX users is
@Article{,
author = {Marlon Stoeckius and Christoph Hafemeister and William Stephenson and Brian Houck-Loomis and Pratip K Chattopadhyay and Harold Swerdlow and Rahul Satija and Peter Smibert},
title = {Simultaneous epitope and transcriptome measurement in single cells},
journal = {Nature Methods},
year = {2017},
doi = {10.1038/nmeth.4380},
url = {https://www.nature.com/articles/nmeth.4380},
}
基本原理和实施
创建 SeuratData 是为了以尽可能轻松和可重复的方式分发 Seurat vignettes 的数据集。 还希望让用户能够灵活地选择性地安装和加载感兴趣的数据集,以最大限度地减少磁盘存储和内存使用。
为此,选择通过单独的 R 包分发数据集。 在底层,SeuratData 使用并扩展了标准 R 函数,例如用于数据集安装的 install.packages
、用于数据集列表的 available.packages
以及用于数据集加载的data
。
因此,SeuratData 作为 R 的更特定的包管理器(类似于元包)。绕 R 的包管理功能提供包装器,进行扩展以提供有关每个数据集的相关元数据,并设置默认设置(例如,存储数据所在的存储库)以方便安装。
参考资料
- https://github.com/satijalab/seurat-data