火山图是生物信息学中常见的图表类型之一,其作用是展示差异基因的分布情况,横轴表示差异基因表达变化的倍数(Fold change),一般常取以2为底的对数,表示为log2(FC),而纵轴则表示p-value,亦或是更为严格的筛选标准q-value(又称adjusted p-value),一般常取负的以10为底的对数,表示为-log10(p-value)。
常用的火山图绘制方法包括R语言的ggplot2包,芯片测序平台自带的内置软件,亦或是在线工具比如ImageGP (http://www.ehbio.com/ImageGP/index.php/Home/Index/)。
如果你不懂R语言,又不想让自己受到现成的软件作图时受到的格式上的束缚,那么你可以试一试EXCEL!
首先我们得到绘制火山图的原始数据,即包括基因名称、P(value)和log(FC)的表格。
然后我们将ID、logFC和adjusted p-value三列单独拿出来,并把adjusted p-value的数据处理成负的以10为底的对数形式。
以K、L、N三列作为数据来源创建散点图
随后调整图表格式,比如我们换一个这种稍微浮夸一些的
当然了,目前这图肯定是还有一大堆问题的,黑色背景肯定是不行的,坐标轴的位置不好,刻度看不清,区分不出差异基因等等,需要我们自己DIY处理一下,下面我们一一细说:
背景设置成无填充即可
坐标轴的标签位置设置为低,那么坐标轴标签就在左边了,顺手这些标签的颜色都调整成黑色
下面重点说说如何把上下调基因的颜色标注出来。
首先我们要把差异基因从原始数据中挑出来,筛选标准为adjusted p-value<>
我们先设置上调基因,系列名称随便填,X轴系列值设置为logFC那一列(不包括标题那一行),Y轴系列值设置为-log10(q-value)那一列(不包括标题那一行)。
左键随便选中一个点,便可更改该系列所有点的格式
图表中所有的格式选项都是这里,可以尽情发挥自己的想象力:
另外我们还可以增加新的系列,来把我们想要展示的基因名称添加到火山图中
最后另存为保存成PDF格式,结果如下: