SeuratData使用说明

最新推荐文章于 2024-12-27 14:52:12 发布

MO_NICA

最新推荐文章于 2024-12-27 14:52:12 发布

阅读量2.7k

点赞数

分类专栏： R语言文章标签： r语言生物信息学生物学

本文链接：https://blog.csdn.net/MO_NICA/article/details/122488217

版权

R语言专栏收录该内容

4 篇文章

订阅专栏

SeuratData 是一个使用 R 的内置包和数据管理系统以 Seurat 对象的形式分发数据集的机制。它为用户提供了一种访问 Seurat vignettes 中使用的数据集的简便方法。

安装

SeuratData 的安装可以通过 devtools 完成。

devtools::install_github('satijalab/seurat-data')

入门

加载 SeuratData 时，将显示所有可用数据集的列表（这类似于 tidyverse 等其他元数据包以及用于创建每个数据集的 Seurat 版本）。可以使用 suppressPackageStartupMessages 抑制此消息。

> library(SeuratData)
── Installed datasets ───────────────────────────────────────────────────────────── SeuratData v0.1.0 ──
✔ cbmc   3.0.0                                           ✔ panc8  3.0.0
✔ ifnb   3.0.0                                           ✔ pbmc3k 3.0.0

───────────────────────────────────────────────── Key ──────────────────────────────────────────────────
✔ Dataset loaded successfully

使用 AvailableData 查看所有可用数据集的清单；随着新数据集上传到我们的数据存储库，此清单将更新。

> AvailableData()
                     Dataset Version                                                        Summary species            system ncells                                                            tech         notes Installed InstalledVersion
cbmc.SeuratData         cbmc   3.0.0                   scRNAseq and 13-antibody sequencing of CBMCs   human CBMC (cord blood)   8617                                                        CITE-seq          <NA>      TRUE            3.0.0
hcabm40k.SeuratData hcabm40k   3.0.0 40,000 Cells From the Human Cell Atlas ICA Bone Marrow Dataset   human       bone marrow  40000                                                          10x v2          <NA>     FALSE            3.0.0
ifnb.SeuratData         ifnb   3.0.0                              IFNB-Stimulated and Control PBMCs   human              PBMC  13999                                                          10x v1          <NA>      TRUE            3.0.0
panc8.SeuratData       panc8   3.0.0               Eight Pancreas Datasets Across Five Technologies   human Pancreatic Islets  14892                SMARTSeq2, Fluidigm C1, CelSeq, CelSeq2, inDrops          <NA>      TRUE            3.0.0
pbmc3k.SeuratData     pbmc3k   3.0.0                                     3k PBMCs from 10X Genomics   human              PBMC   2700                                                          10x v1          <NA>      TRUE            3.0.0
pbmcsca.SeuratData   pbmcsca   3.0.0           Broad Institute PBMC Systematic Comparative Analysis   human              PBMC  31021 10x v2, 10x v3, SMARTSeq2, Seq-Well, inDrops, Drop-seq, CelSeq2 HCA benchmark     FALSE            3.0.0

可以使用 InstallData 安装数据集；此函数将接受数据集名称（例如 pbmc3k）或相应的包名称（例如 pbmc3k.SeuratData）。 InstallData 将自动附加已安装的数据集包，以便立即加载和使用数据集。

> InstallData("pbmc3k")

使用 data 函数加载数据集

> data("pbmc3k")
> pbmc3k
An object of class Seurat
13714 features across 2700 samples within 1 assay
Active assay: RNA (13714 features)

数据集文档和信息

提供的所有数据集都有为其构建的帮助页面。使用 help 访问这些页面。

> ?pbmc3k
> ?ifnb

这些帮助页面的示例部分提供了用于生成每个数据集的步骤的完整命令列表。
包中还经常捆绑有引文信息。可以通过 citation 来访问引文信息，输入包的名称（不是数据集名称）。

> citation('cbmc.SeuratData')

To cite the CBMC dataset, please use:

  Stoeckius et al. Simultaneous epitope and transcriptome measurement in
  single cells. Nature Methods (2017)

A BibTeX entry for LaTeX users is

  @Article{,
    author = {Marlon Stoeckius and Christoph Hafemeister and William Stephenson and Brian Houck-Loomis and Pratip K Chattopadhyay and Harold Swerdlow and Rahul Satija and Peter Smibert},
    title = {Simultaneous epitope and transcriptome measurement in single cells},
    journal = {Nature Methods},
    year = {2017},
    doi = {10.1038/nmeth.4380},
    url = {https://www.nature.com/articles/nmeth.4380},
  }

基本原理和实施

创建 SeuratData 是为了以尽可能轻松和可重复的方式分发 Seurat vignettes 的数据集。还希望让用户能够灵活地选择性地安装和加载感兴趣的数据集，以最大限度地减少磁盘存储和内存使用。
为此，选择通过单独的 R 包分发数据集。在底层，SeuratData 使用并扩展了标准 R 函数，例如用于数据集安装的 install.packages、用于数据集列表的 available.packages 以及用于数据集加载的data。
因此，SeuratData 作为 R 的更特定的包管理器（类似于元包）。绕 R 的包管理功能提供包装器，进行扩展以提供有关每个数据集的相关元数据，并设置默认设置（例如，存储数据所在的存储库）以方便安装。