单细胞分析（七）——fastMNN数据去批次整合

最新推荐文章于 2024-06-28 18:03:52 发布

生信小鹏

最新推荐文章于 2024-06-28 18:03:52 发布

阅读量2.4k

点赞数 3

分类专栏：生信技能学习文章标签：数据挖掘数据分析 r语言

本文链接：https://blog.csdn.net/lijianpeng0302/article/details/133709114

版权

生信技能学习专栏收录该内容

34 篇文章

订阅专栏

本文介绍了如何使用Seurat工具包构建Seurat对象，特别是处理已经预处理过的单细胞测序数据，包括读取文件、合并数据、去除批次效应（使用fastMNN）以及对比未校正与校正后的单细胞聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

构建seurat 对象

seurat官网给出的数据是 SeuratData 内置数据，但是使用 SeuratData 下载会提示相应的问题，也有通过数据连接直接下载。这里我使用个人数据，特点是：已经通过 cellranger 处理了 FASTQ 文件，得到了 feature， barcode， matrix 文件，如下

上一级文件如下，

层级显示关系如下

然后需要将这些文件统一读入到一个列表中，操作如下

# 读入数据
# 创建一个空列表来存储数据块
seu.list <- list()

# 指定文件夹路径
folder_path <- "./HRA000212_raw_feature_bc_matrix"

# 获取文件夹中的文件列表
file_list <- list.files(path = folder_path, full.names = TRUE)

# file_names <- substr(basename(file_list), 1, 9)

# 遍历文件列表并读入数据
library(future)
# check the current active plan
plan()
# change the current plan to access parallelization
plan("multiprocess", workers = 15)
options(future.globals.maxSize = 10000 * 1024^2)

system.time({
  for (file_path in file_list) {
    # 提取文件名（不包括路径和扩展名）
    file_name <- tools::file_path_sans_ext(basename(file_path))
    file_name <- substr(basename(file_name), 1, 9)
    
    # 读入文件数据（这里假设文件是文本文件）
    data <- Read10X(file_path)
    
    scobj <- CreateSeuratObject(data, project = file_name, min.cells = 3, min.features = 200)
    
    # 将数据添加到列表中，以文件名作为标识
    seu.list[[file_name]] <- scobj
    
    # return(seu.list)
  }
  
})

# 打印列表中的数据
print(seu.list)

使用fastMNN去批次

### Merge 合并数据
system.time({
  scobj <- merge(x=seu.list[[1]], y = seu.list[-1])
})
# user  system elapsed 
# 117.717  76.181 195.091 


### 使用 fastMNN 去除批次
scobj <- NormalizeData(scobj)
scobj <- FindVariableFeatures(scobj)

scobj <- RunFastMNN(object.list = SplitObject(scobj, split.by = "orig.ident"))
scobj <- RunUMAP(scobj, reduction = "mnn", dims = 1:30)
scobj <- FindNeighbors(scobj, reduction = "mnn", dims = 1:30)
scobj <- FindClusters(scobj, resolution = 0.5)
p1 <- DimPlot(scobj, reduction = "umap")
p2 <- DimPlot(scobj, reduction = 'umap', group.by = 'orig.ident') + ggsci::scale_color_d3("category20")
p2 + p1

没有去除批次的效果

# 如果不进行批次矫正

scobj <- NormalizeData(scobj)
scobj <- FindVariableFeatures(scobj, selection.method = "vst", nfeatures = 2000)
scobj <- ScaleData(scobj, features = rownames(scobj))
scobj <- RunPCA(scobj, features = VariableFeatures(object = scobj), reduction.name = "pca")
ElbowPlot(scobj)
DimPlot(scobj, reduction = "pca")

# 不进行批次矫正
scobj <- RunUMAP(scobj,reduction = "pca", dims = 1:10, reduction.name = "umap_naive")
p2 <- DimPlot(scobj, reduction = "umap_naive",group.by = "orig.ident")