大家好,这里是生信指南针。我们今天学习的内容是「Insights into mammalian TE diversity through the curation of 248 genome assemblies」中的Fig.1 Correlation of total genomic TE content and the size, in base pairs, of the genome。
01 图解
Fig.1 Correlation of total genomic TE content and the size, in base pairs, of the genome
该图通过散点图的展现形式分析了基因组大小和TE之间的关系,通过图中直线的斜率我们可以判断基因组大小和TE之间呈正相关的关系,也就是当基因组越大时,TE含量越高。
当我们有很多组样品(每个点代表一个样品),每个样品有多组变量,我们可以通过散点图+相关性分析展现每两个变量之间的关系,一般来说,样品数目越多结果越准确。
02 数据准备
这是文章提供的数据,共有248个样本,接下来我们使用R语言来探究基因组大小和TE含量这两个变量之间的关系并将其可视化。
03 数据可视化
###导入文件
file <- read.xlsx("/Users/wml0606/Desktop/生信指南针/跟着CNS学绘图/01_散点图+相关性分析/Data.xlsx",sheet = "Sheet1")
ggplot(file, aes(x = Assembly_size, y = TE_prop,color=Order))+
geom_point(size=4)+ ###画散点图,并设置散点的大小
geom_smooth(data=file,method="lm",se=TRUE,aes(group=1))+ ###绘制拟合曲线
theme_bw()+ ###去掉背景中的阴影部分
theme(panel.grid=element_blank())+
scale_colour_manual(values=c("Afrosoricida"="#afcee1","Artiodactyla"="#6497c3","Carnivora"="#558ca6",
"Chiroptera"="#a4cb97","Cingulata"="#89c16c","Dermoptera"="#5a9d42","Eulipotyphla"="#b49c79",
"Hyracoidea"="#e57d7a","Lagomorpha"="#d33d34","Macroscelidea"="#e1744f",
"Perissodactyla"="#f3ba70","Pholidota"="#f0973f","Pilosa"="#e09355","Primates"="#c8b0c9",
"Proboscidea"="#8f71b1", "Rodentia"="#7c5d94","Scandentia"="#dbd3a0","Sirenia"="#dcc078","Tubulidentata"="#a65d34"))+ ###自定义散点图颜色
xlab("Genome size")+ ###设置X轴标题
ylab("Proportion of the genome attributed to TEs")+ ###设置y轴标题
theme(axis.title.x = element_text(size=14,face="bold"),
axis.title.y = element_text(size=14,face="bold"))+ ###设置XY轴标题大小
theme(axis.text.x=element_text(size=12,face="bold"),
axis.text.y=element_text(size=12,face="bold"))+ ###设置坐标轴文字大小
theme(legend.position="top")+ ###将图例放在图的上方
theme(legend.title=element_blank()) ###去掉图例标题
运行上述代码查看一下结果吧!
结果:
可以看到已经重现了原图,需要注意的是图例上的阴影需要到AI中进行修改(本人没有找到相关的代码,如果大家知道的话可以私信我一下),如果有什么问题的话可以在交流群里进行提问,我们这节课程就到这里啦,下次再见!