阅读Integrated multi-omic characterization of congenital heart disease(Nature, 2022, 608, 181–191)这篇文章的时候发现一张图(Fig2d、e):
Fig. 2: snRNA-seq showing the unique transcriptional signature of cardiomyocytes in paediatric patients with CHD.
原文说使用了pseudo-bulk RNA-seq analysis,查看methods:
查了一下资料,Pseudobulk RNA-seq指的是把scRNA-seq数据按照基因累加counts表达值,当作每个样本或细胞类型的bulk RNA-seq数据,目的是比较样本或细胞类型间的总体差异。
主要有两种形式:
1.一个样本的所有scRNA-seq数据(或者随机选一部分数据)合并成一个样本的bulk数据,比较不同样本。
2.scRNA-seq的某个或某种细胞簇下面的所有细胞合并成一个样本的bulk数据,比较不同细胞类型。
前述文章图片的数据就是把心肌细胞的三个亚类(CM1、CM2、CM3)按照不同疾病类型(Control、TOF、DCM等)合并,使用PCA进行评估展示,发现CHD diagnosis是样本间的主要差异来源。
实现方法:1. R包:muscat,封装好的函数直接用
2. 像文章中一样,利用aggregate函数分组统计,将单细胞数据整合成bulk数据,之后用Deseq2等方法分析差异
参考文献:Nature, 2022, 608, 181–191.
Nature Communications, 2021, 12, 5692.