单细胞分析（九）——使用sctransform函数标准化

生信小鹏

已于 2023-11-16 09:57:15 修改

阅读量4.1k

点赞数 4

分类专栏：生信技能学习文章标签：数据挖掘 r语言数据分析

于 2023-11-01 10:44:38 首次发布

本文链接：https://blog.csdn.net/lijianpeng0302/article/details/134120242

版权

生信技能学习专栏收录该内容

34 篇文章

订阅专栏

文章讲述了如何使用SCTransform对单细胞RNA-seq数据进行预处理和标准化，以减少技术因素影响，适用于Seurat中的生物信息学分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单细胞 RNA-seq 数据的生物异质性常常受到测序深度等技术因素的影响。每个细胞中检测到的分子数量在细胞之间可能存在显着差异，即使在同一细胞类型内也是如此。 scRNA-seq 数据的解释需要有效的预处理和标准化，以消除这种技术变异性。在 Hafemeister 和 Satija，2019 年，seurat实验室引入了一个建模框架，用于对 scRNA-seq 实验中的分子计数数据进行归一化和方差稳定。该过程省略了对启发式步骤的需要，包括伪计数加法或对数转换，并改进了常见的下游分析任务，例如变量基因选择、降维和差异表达。

在这个tutorial中，演示了如何使用基于 sctransform 的标准化来恢复与对数标准化相比更清晰的生物学差异。

加载Rpackage

library(Seurat)
library(ggplot2)
library(sctransform)

加载数据创建seurat对象

### sample list
samples <- read_excel("../data/metadata/patients_metadata.xlsx", range = cell_cols("A:A")) %>% .$sample_id
# 根据研究情况，确定研究样本即可

### import cellranger files from different data sets
for (i in seq_along(samples)){
  assign(paste0("scs_data", i), Read10X(data.dir = paste0("../data/cellranger/", samples[i], "/filtered_feature_bc_matrix")))
}

### create seurat objects from cellranger files
for (i in seq_along(samples)){
  assign(paste0("seu_obj", i), CreateSeuratObject(counts = eval(parse(text = paste0("scs_data", i))), project = samples[i], min.cells = 3))
}

### merge data sets
seu_obj <- merge(seu_obj1, y = c(seu_obj2, seu_obj3, seu_obj4, seu_obj5, seu_obj6, seu_obj7, seu_obj8, seu_obj9, seu_obj10, seu_obj11, seu_obj12, seu_obj13, seu_obj14, seu_obj15, seu_obj16, seu_obj17, seu_obj18, seu_obj19, seu_obj20), add.cell.ids = samples, project = "SC")
# 根据研究内容，输入相应的project即可

使用sctransform进行标准化

这个命令取代了 NormalizeData()、ScaleData() 和 FindVariableFeatures()。
转换后的数据将在 SCT 测定中可用，运行 sctransform 后设置为默认值。
在标准化过程中，我们还可以消除混杂的变异来源，例如线粒体作图百分比

# store mitochondrial percentage in object meta data
seu_obj[["percent.mt"]] <- PercentageFeatureSet(seu_obj, pattern = "^MT-")

# run sctransform
seu_obj <- SCTransform(seu_obj, vars.to.regress = "percent.mt", verbose = FALSE)

参数学习
seu_obj: 这是你之前提到的Seurat对象，表示你要对这个对象中的数据执行SCTransform处理。

SCTransform(): 这是一个函数调用，用于执行SCTransform处理。

verbose = T: 这个参数设置为TRUE，表示在执行SCTransform时会输出一些详细的信息，通常用于调试和监控处理进度。

vars.to.regress = “percent.mt”: 这是一个用于回归的参数，它指定了要从数据中回归掉的变量。在这里，选择了变量：“percent.mt”。这通常是为了排除一些技术因素对数据的影响。

conserve.memory = T: 这个参数设置为TRUE，表示在处理时尽量减少内存的使用，以避免内存不足的问题。

# These are now standard steps in the Seurat workflow for visualization and clustering
seu_obj <- RunPCA(seu_obj, verbose = T)
seu_obj <- RunUMAP(seu_obj, dims = 1:30, verbose = T)

seu_obj <- FindNeighbors(seu_obj, dims = 1:30, verbose = FALSE)
seu_obj <- FindClusters(seu_obj, verbose = FALSE)
DimPlot(seu_obj, label = TRUE) + NoLegend()