这篇文章我们将介绍从geo数据库下载单细胞测序数据后,多种数据格式多样本情况下,如何读取数据并创建seurat对象。
本文主要结构:
一、数据下载
二、数据读取与seurat对象创建
- 单样本情况下各种格式数据的读取,读取后seurat对象的创建
- 多样本情况下各种格式数据的读取,读取后seurat对象的创建、合并
一、数据下载
大家自行去GEO官网(https://www.ncbi.nlm.nih.gov/gds)搜索下载自己想要的单细胞测序数据。本文后面会提供数据用于示例代码测试。
GEO数据库上提供的单细胞测序数据常见格式主要有以下几种:
-
10x Genomics格式: matrix.mtx、genes.tsv和barcodes.tsv文件是10X Genomics单细胞转录组测序数据的标准文件格式。这些文件通常存储在一个目录中,可以使用Read10X函数从R语言中读取。
- matrix.mtx:这是一个稀疏矩阵文件,其中包含了每个单细胞的基因表达信息。矩阵中的每一行代表一个基因,每一列代表一个单细胞,矩阵中的每个元素表示该基因在该单细胞中的表达量。
- genes.tsv(或features.tsv):这是一个文本文件,其中包含了每个基因的信息。每一行代表一个基因,每一列代表一个属性,例如基因名称、基因编号等。
- barcodes.tsv:这是一个文本文件,其中包含了每个单细胞的条形码信息。每一行代表一个单细胞,每一列代表一个属性,例如条形码序列、细胞类型等。
-
h5格式: 这是一种用于存储大规模数据的二进制文件格式,它可以包含多种数据类型,如矩阵、表格、图像等。
-
压缩文本矩阵(TXT或CSV的GZ文件): 压缩文本矩阵可以用于存储单细胞测序数据的表达矩阵或元数据,它可以减少文件的大小和传输时间 。
-
h5ad格式: 它专门用于存储和分享单细胞表达数据,它使用Anndata库来创建和读取。h5ad格式可以与cellxgene或Seurat等工具兼容,进行单细胞数据的可视化和分析 。
-
h5seurat格式: 这是一种基于h5格式的文件格式,它专门用于存储和分析多模态单细胞和空间分辨率表达实验,如CITE-seq或10X Visium等技术。h5seurat格式可以与SeuratDisk等工具兼容,进行单细胞数据的读写 。
-
R数据文件(RDS/RDATA文件): 以R语言的数据文件格式存储表达式矩阵,需要R软件直接读取。
二、数据读取与seurat对象创建
单样本
单样本情况下每种格式的数据读取与seurat对象创建演示:
10x Genomics格式:
演示数据的下载:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527
文件下载后解压,并修改名称,存放路径如下图:
读取文件并创建对象的代码参考:
# 导入Seurat包
library(Seurat)
# 查看当前工作目录
getwd()
# 设置工作目录(将工