绘制火山图&热图

最新推荐文章于 2025-02-11 15:10:13 发布

FightingBob

最新推荐文章于 2025-02-11 15:10:13 发布

阅读量1w

点赞数 9

分类专栏：数据可视化文章标签：生物学 r语言可视化数据分析

本文链接：https://blog.csdn.net/FightingBob/article/details/106161956

版权

数据可视化专栏收录该内容

4 篇文章

订阅专栏

在上一篇文章中，我们已经对基因进行了差异分析，接下来我们根据结果中的FDR值和FC值筛选出上调基因和下调基因（上调基因：基因转录成mRNA时受到正向调控，促进表达；下调基因：转录成mRNA时受到抑制，表达量减少），并绘制成火山图与热图。

所用工具：R语言；
所需要包：ggplot2、pheatmap。

第一部分：火山图

首先，加载所需的包并导入数据：

library(ggplot2)
diff_stat <- read.csv("F:/公众号/图文素材/绘制火山图&热图/data.csv", header = TRUE, row.names = 1)

在这里插入图片描述
其次，筛选上调趋势数据和下调趋势数据，对于Fold Change值和p值阈值的选择，还需在实际的分析中视情况而定，本文以|log2FC| ≥2以及FDR p-value < 0.05作为差异OTUs的判断依据：

diff_stat[which(diff_stat$FDR < 0.05 & diff_stat$logFC >= 2),'diff'] <- 'up' #上调趋势筛选
diff_stat[which(diff_stat$FDR < 0.05 & diff_stat$logFC <= -2),'diff'] <- 'dowm' #下调趋势筛选
diff_stat[!(diff_stat$diff %in% c('up', 'dowm')),'diff'] <- 'no'

最后，我们根据判断依据，将OTUs划分为“富集”（up）、“下降”（down）以及“无差异”（no）三种水平。然后，在作图时根据预先划分的OTUs差异水平对点分别着色。火山图实质上就是一种散点图，ggplot2作为一个非常好用的作图R包，我们直接用ggplot2进行绘制：

p1 <- ggplot(diff_stat, aes(x = logFC, y = -log10(FDR))) +
  geom_point(aes(color = diff), size = 0.5) +
  scale_colour_manual(limits = c('up', 'dowm', 'no'), values = c('blue', 'red', 'gray40'), labels = c('Enriched OTUs', 'Depleted OTUs', 'No diff OTUs')) +
  labs(x = 'log2 Fold Change', y = '-log10 FDR p-value')

在这里插入图片描述
我们可以对图进行美化，修改背景颜色、添加分界线、调整标签位置：

p1 <- p1 +
  theme(panel.grid.major = element_line(color = 'gray', size = 0.2), panel.background = element_rect(color = 'black', fill = 'transparent')) +
  geom_vline(xintercept = c(-2, 2), color = 'gray', linetype = 2, size = 0.5) + 
  geom_hline(yintercept = -log10(0.05), color = 'gray', linetype = 2, size = 0.5) +
  theme(legend.title = element_blank(), legend.key = element_rect(fill = 'transparent'), legend.background = element_rect(fill = 'transparent'), legend.position = c(0.2, 0.9))

在这里插入图片描述

知识笔记

差异分析是一个典型的多重假设检验过程，对于多重假设检验，单次检验中差异显著基因的假阳性率(p-value较小)可能会较大，而q-value和FDR值较常见的BH校正方法得到的FDR值而言，改进了其对假阳性估计的保守性。
即q-value相比于p-value更加严格，当差异基因结果较少时，可以退而求其次看p-value。Fold ChangeFold Change表示实验组比上对照组的差异表达倍数，一般表达相差2倍以上是有意义的，放宽要求1.5倍或者1.2倍也可以接受。

第二部分：热图

首先，加载所需的包并导入数据：

library(pheatmap)
sign.gene <- read.csv("F:/公众号/图文素材/绘制火山图&热图/data.csv", header = T , row.names = 1)

其次，筛选数据：

sign.gene.FDR <- sign.gene$FDR < 0.05
sign.gene.fc <- abs(sign.gene$logFC) > 2
sign.gene.all <- sign.gene.FDR & sign.gene.fc
sign.gene.real <- sign.gene[sign.gene.all, ]

如果样本中存在缺失值（例如：NA），我们可以用na.omit()进行删除：

sign.gene.real<-na.omit(sign.gene.real)

最后，绘制热图，并用基因标签代替基因ID作为热图的行标签：

pheatmap(log2(sign.gene.real[,3:85]+1), labels_row = sign.gene$Symbol)

在这里插入图片描述

也可以根据各自的需求进行美化：

pheatmap(log2(sign.gene.real[,3:85]+1),
         labels_row = sign.gene$Symbol,
         main="Heatmap",
         color = colorRampPalette(c("blue","white","red"))(256)
)

在这里插入图片描述
说明：
Color参数中的256是指色阶值，也可以理解为色阶分辨率，数值越大，热图上颜色越丰富，一般设置为256。

知识笔记

热图又称为聚类图，可以衡量样本或基因之间表达的相似性。
如本文所示的热图中，横坐标代表样本聚类，一列代表一个样本，聚类基于样本间基因表达的相似性，样本间基因表达越接近，靠的越近，以此类推。
纵坐标代表基因聚类，一行代表一个基因，聚类基于基因在样本中表达的相似性，基因在样本中表达越接近，靠的越近，以此类推。
色阶代表基因表达丰度，越红代表上调得越明显，越蓝代表下调得越明显。