复现《NC》图表(二):R语言一键画表达量箱线图并添加显著性

我们接着重现NC这篇文章的Figure2,这篇文章里有很多这样的箱线图,这也是这个重现系列重点要讲的内容。原文作者提供了这部分代码,对于所有图提供了详细的数据,可以参考作图。

图片

这里重现的重点在于批量画图,利用循环,可以一劳永逸,一次性画图多个图,省时省力!

1、数据整理

画图数据需要两个文件,一个是表达量数据,列为样本,行为基因。另外一个是注释信息,是关于样本分组的。

表达数据:

图片

样本信息:

图片

2、作图详细过程

第一步加载需要的R包:


library(RColorBrewer)
library(ggpubr)
library(ggplot2)
library(cowplot)

第二步加载数据并进行处理:这里增添一个小细节,也是小编初学R遇到的问题。假设有一个几千行的表达矩阵,我只想挑选几十个基因的表达数据,用Excel的搜索工具显然不现实。用R解决就很简单,首先创建一个需要基因(行名)的向量,然后用它去提取行名为向量的数据即可!


setwd("D:/生物信息学")
Exp <- read.csv("Exp.csv",header=T,row.names=1)#读入源文件
gene <- c("CD28","CD3D","CD8A","LCK",
          "GATA3","EOMES","IL23A","CXCL8",
          "IL1R2","IL1R1","MMP8","MMP9")#这里我们只选择这几个基因做数据
gene <- as.vector(gene)
Exp <- log2(Exp+1) #因为是FPKM数据,标准化一下
Exp_plot <- Exp[,gene]#提取需要作图得基因表达信息

第三步加载样本信息:

#加载样本信息
info <- read.csv("info.csv",header=T)
Exp_plot<- Exp_plot[info$Sample,]
Exp_plot$sam=info$Type
Exp_plot$sam <- factor(Exp_plot$sam,levels=c("Asymptomatic","Mild","Severe","Critical"))

第四步设置分组的颜色:就如同用prism做图一样,不同组用不同颜色表示。

col <-c("#5CB85C","#337AB7","#F0AD4E","#D9534F")

第五步进行循环:详细的代码解释也注释出来了。

plist2<-list()
for (i in 1:length(gene)){
  bar_tmp<-Exp_plot[,c(gene[i],"sam")]
  colnames(bar_tmp)<-c("Expression","sam")
  my_comparisons1 <- list(c("Asymptomatic", "Mild")) 
  my_comparisons2 <- list(c("Asymptomatic", "Severe"))
  my_comparisons3 <- list(c("Asymptomatic", "Critical"))
  my_comparisons4 <- list(c("Mild", "Severe"))
  my_comparisons5 <- list(c("Mild", "Critical"))
  my_comparisons6 <- list(c("Severe", "Critical"))
  pb1<-ggboxplot(bar_tmp,
                 x="sam",
                 y="Expression",
                 color="sam",
                 fill=NULL,
                 add = "jitter",
                 bxp.errorbar.width = 0.6,
                 width = 0.4,
                 size=0.01,
                 font.label = list(size=30), 
                 palette = col)+theme(panel.background =element_blank())
  pb1<-pb1+theme(axis.line=element_line(colour="black"))+theme(axis.title.x = element_blank())
  pb1<-pb1+theme(axis.title.y = element_blank())+theme(axis.text.x = element_text(size = 15,angle = 45,vjust = 1,hjust = 1))
  pb1<-pb1+theme(axis.text.y = element_text(size = 15))+ggtitle(gene[i])+theme(plot.title = element_text(hjust = 0.5,size=15,face="bold"))
  pb1<-pb1+theme(legend.position = "NA")#
  pb1<-pb1+stat_compare_means(method="t.test",hide.ns = F,
                              comparisons =c(my_comparisons1,my_comparisons2,my_comparisons3,my_comparisons4,my_comparisons5,my_comparisons6),
                              label="p.signif")
  plist2[[i]]<-pb1 
}

第六步排列图片,我们选择了12个基因,所以会有12张图,对其进行排列。

plot_grid(plist2[[1]],plist2[[2]],plist2[[3]],
                plist2[[4]],plist2[[5]],plist2[[6]],
                plist2[[7]],plist2[[8]],plist2[[9]],
                plist2[[10]],plist2[[11]],plist2[[12]],ncol=4)#ncol=4表示图片排为几列

最后画出来的图片如下:

图片

效果和原文一摸一样啊,剩下的进行排版修饰即可!学会这个技术可以一劳永逸了,不同一张一张画图,一次性出这么多图。可以用自己的数据试试手!

如果想要详细的数据代码注释,可关注公众号《KS科研分享与服务》留言或者联系作者,说明来意。

 

要对药物差异表达建立显著性模型并进行参数估计,可以考虑以下步骤: 1. 数据预处理:首先,对药物差异表达数据进行预处理,包括数据清洗、去除异常值、标准化等操作。确保数据的质和可靠性。 2. 确定研究设计:根据研究目的和数据特点,确定适当的研究设计和统计模型。常见的设计包括配对设计、无配对设计以及多组比较设计等。 3. 选择合适的统计方法:根据数据的分布情况和研究设计,选择合适的统计方法。常用的方法包括t检验、方差分析(ANOVA)、线性回归等。对于非正态分布的数据,可以考虑使用非参数方法如Mann-Whitney U检验或Kruskal-Wallis检验。 4. 建立显著性模型:根据选定的统计方法,建立药物差异表达显著性模型。模型应包括自变(药物组别)和因变(差异表达水平),并考虑可能的混杂因素(如年龄、性别等)。同时,可以考虑引入交互作用项来探索不同因素之间的影响。 5. 进行参数估计:使用建立的显著性模型,进行参数估计。根据模型的类型,可以使用最小乘法、最大似然估计等方法来估计模型参数。同时,计算参数的置信区间和显著性水平,以评估参数的可靠性和统计显著性。 6. 结果解释和报告:根据参数估计结果,解释药物差异表达显著性,并撰写结果报告。报告中应包括统计检验结果、参数估计值、置信区间和显著性水平等,以便其他人能够理解和复现你的研究。 在进行药物差异表达研究时,确保使用适当的统计方法和正确的研究设计是非常重要的。此外,为了减少偶然性误差和提高结果的可靠性,建议在分析前进行样本大小估计,并进行多重校正(如Bonferroni校正)来控制多重比较问题。 最后,如果你不确定如何进行药物差异表达显著性模型建立和参数估计,建议咨询统计学专家或领域专家,以确保选择和应用适当的方法。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值