单细胞分析实录(4): doublet检测

最新推荐文章于 2025-04-12 06:30:00 发布

TOP生物信息

最新推荐文章于 2025-04-12 06:30:00 发布

阅读量7.8k

点赞数 6

分类专栏：单细胞

本文链接：https://blog.csdn.net/qq_38774801/article/details/112006700

版权

最近Cell Systems杂志发表了一篇针对现有几种检测单细胞测序doublet的工具的评估文章，系统比较了常见的例如Scrublet、DoubletFinder等工具在检测准确性、计算效率等方面的优劣，以及比较了使用不同方法去除doublet后对下游DE分析、轨迹分析的影响。

现有的检测方法，基本都会先构造出虚拟doublet，然后将候选droplet与这些虚拟doublet比较，很相似的那些就定义为doublet。这里的虚拟doublet是通过随机组合两个（类）细胞的表达值得到的虚拟的doublet，可以作为检测时的参照。

在现有的9种方法中(Scrublet、doubletCells、cxds、bcds、Hybrid、DoubletDetection、DoubletFinder、Solo、DoubletDecon)，文章的结论是DoubletFinder的准确率最高。

里面的方法我用过三种：Scrublet、DoubletFinder和DoubletDecon。前面两个用法类似，需要提供一个参数表示doublet的占比。DoubletDecon的原文我看过，算法比较简单，不需要提供doublet的占比，减少了用户额外的输入，不过也造成了一些麻烦，有时候会报告出很多doublet，多得惊人。实际分析中，我采用“两步走”的策略：选取了Scrublet和DoubletFinder的共同结果作为doublet去除掉，此外在后续聚类分亚群的过程中，根据一些已知的经典的细胞marker来判断doublet，比如CD45和EPCAM都高表达的亚群极有可能是doublet。

接下来，我会简单介绍DoubletDecon、DoubletFinder、Scrublet三个工具的使用。

1. DoubletDecon

该方法中间有一步用到了类似bulk RNA-seq里面deconvolution的思路来评估每一个细胞的表达模式，因此叫DoubletDecon。这里用含有500个细胞的真实数据作为例子。在使用DoubletDecon之前，需要先用seurat对数据进行初聚类，seurat的使用我后面会详细讲，这里先把标准流程放上来。

library(tidyverse)
library(Seurat)
library(DoubletDecon)

test=read.table("test.count.txt",header = T,row.names = 1)
test.seu <- CreateSeuratObject(counts = test)
#Normalize
test.seu <- NormalizeData(test.seu, normalization.method = "LogNormalize", scale.factor = 10000)
#FindVariableFeatures
test.seu <- FindVariableFeatures(test.seu, selection.method = "vst", nfeatures = 2000)
#Scale
test.seu <- ScaleData(test.seu, features = rownames(test.seu))
#PCA
test.seu <- RunPCA(test.seu, features = VariableFeatures(test.seu),npcs = 50)
#cluster
test.seu <- FindNeighbors(test.seu, dims = 1:20)
test.seu <- FindClusters(test.seu, resolution = 0.5)
tes

最低0.47元/天解锁文章