生信识图 之 点图进阶-1

各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂。

-----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用-----

       大Y老师做生信分析十多年了,在此期间结识很多实验大牛,发现大牛们做实验很大牛,但是对很多生信的图表竟然一知(Wu)半(Suo)解(Zhi),这怎么可以呢,你们是大牛耶!

      然后大Y老师上网一查,发现事出有因。虽然现在市面上有很多生信培训的公众号,或者代码复现的实操文章,但是对实验大牛们来说,其实并不是很实用。为什么这么说呢,依据大Y老师的经验,做生信其实是分为三个层次的:

层次一:看懂图(能看懂文献的分析结果)

层次二:会做图(会写代码,能完成别人的画图需求)

层次三:知道做什么图(知道自己的数据需要用什么图来展示,指示别人去做)

       这样大家就清楚了,层次一嘛,打工人实锤,层次二嘛,还是打工人实锤,层次三嘛,才算是金主爸爸。试问各位,谁不想从打工人变成金主爸爸,谁会愿意从打工人进阶成打工人呢?其实,如果不打算专门做生信专业,完全可以跳过第二层次,直接跃迁到第三层!毕竟做实验很厉害就已经很厉害了呀。

      那么问题来了,怎样实现从看懂图到知道做什么图的跃迁呢?这就是大Y老师创立这个公众号的目的啦,就是要用特别白的那种大白话跟大家分享读懂生信分析图表的方法,让大家以后读文献更快更明白,与分析老师沟通也更顺畅更高效,最终融会贯通,把自己的数据漂漂亮亮地展现出来。

       好啦,碎碎念结束,下面我们就要开始今天的识图之旅啦。请大家先一起喝一口水,因为下面的内容可是全网独家干货,真的超干~

-----我是图图图图的分割线-----

上次我们一起整理了点图的基础干货。各位大牛还记得重点吗?让我们来自测一下:

提问:点图的必要元素包括什么,聪明的你可以回答吗?

如果觉得记忆不深刻了,可以点击下面的链接来巩固一下,不要着急。

生信识图 之 点图基础_大Y老师的博客-CSDN博客

       点图是生信图表里最基础、最常用的形式之一。依托于不同的统计算法,获得必要元素数值,再加上补充元素信息,可以幻化出各种花哨绚丽的图形,用来承载和表达复杂的生信内容。不过呢,万变不离其宗,只要我们牢牢掌握了点图的基础,理解起文献中千变万化的点图也是手到擒来。今天我们就来一起详细解读一个典型的进阶版点图—火山图 (Volcano Plot)

【第一回合】

       火山图是一种特化的点图,由于其外形像火山喷发的样子而得名,是展现基因表达量变化的最常用的图形,在bulk RNA-seq中广泛应用。广泛到什么程度呢?可以说在文献中只要涉及bulk RNA-seq分析,必然会有火山图的身影。下图就是一张典型的火山图:

Int J Mol Sci 2014

 

        花花绿绿,看起来蛮复杂,其实我们只要关注点图的必要元素,也就很容易理解啦。点图的必要元素太简单了,只包括X轴坐标和Y轴坐标。那么,我们来看一看火山图的XY坐标分别是什么。

      火山图中每个点代表一个基因,这个点投射到X轴和Y轴的数值分别指代基因的变化程度和显著程度。

      X轴 = log2(fold change)。可以拆分为两部分理解。首先是fold change,中文直译是倍数变化。在bulk RNA-seq分析中,比较两个不同分组的基因表达,通过一系列算法,精准计算出一个基因在干预组中的表达与在对照组中表达的比值,就是fold change。大白话就是变了多少倍。表达量翻一倍,那么fold change就是2,表达量要是翻个筋斗云,理论上可以达到正无穷倍。反之,表达量减少一倍,那么fold change就是0.5,如果像股票大盘一样一降再降的话,理论上可以为一个无限趋近于0的正数。而如果表达量像工资一样毫无变化的话,那么fold change自然就是1喽。那为什么要对fold change取log2对数呢?可以想象,假如按照fold change的数值来画图,有的点的X值无限趋近于0,有的点的X值有几百几千,一句话,数之大,一个图画不下。而且,表达量增加的基因分布在> 1的广大空间,而表达量减少的基因聚集在 0 ~ 1的狭小空间,图画出来就不好看了。取一个log2对数可就不一样了,大大缩小了数值范围,而且fold change为1的值对应log2 (fold change)为0,不变化的基因落在X轴0点,不偏不倚,更符合人类的阅读习惯。

      Y轴 = -log10 (adjusted P value)。也可以拆分为两部分理解。adjusted P value 是校正过的t test 的P value。为什么要校正呢?因为按照t test取95%可信区间判定P值的话,由于样本量很大(bulk RNA-seq测到的所有基因),那么就会有相当数量的基因出现假阳性差异的情况,为了尽量减少假阳性,对P值进行算法上的校正,就产生了adjusted P value。一般在bulk RNA-seq分析中,采用Benjamini and Hochberg 方法来对每一个P值做校正,adjusted P value = P * n / rank, rank就是P值从小到大排序后的次序。扯远了扯远了,还是让我们回到图形中,同样道理,adjusted P value的分布范围是0~1,一般来说我们习惯于关心adjusted P value < 0.05的基因,但是如果按照adjusted P value的实际值来画图,关键的基因都挤在 0 ~ 0.05的范围内,那些没有显著差异的基因却分布在 0.05 ~ 1的广袤范围内,这显然不是我们像看到的。所以对adjusted P value 取 log10 () 对数,P值越小,其 log10对数绝对值越大,只不过是负向的,那么再乘以一个 -1,-log10 (adjusted P value) 范围变成0 ~ 正无穷,adjusted P value越小,-log10 (adjusted P value)值越大,完美!


       怎么样,这样梳理下来,火山图是不是一目了然?由于我们在bulk RNA-seq分析中,通常用adjusted P value<0.05, 且 log2 (fold change) 的绝对值> 0.58 或者1 或者2 作为阈值来卡显著差异,所以在点的颜色上,也通常做出区分。没有显著差异的基因,赋予灰色等颜色,显著降低的基因,赋予蓝色等,显著增加的基因,赋予红色等。当然啊,配色喜好因人而异,我们的示例图中,就分别赋予了绿色、红色和蓝色。同时,可以在图中加上几条辅助线,分别是adjusted P value = 0.05,即 -log10 (adjusted P value) = 1.30103,以及log2 (fold change) 的正负值,用于更好地辅助阅读,展示基因的分布情况。

【第二回合】

        多年以来,无数能人志士在火山图的基本框架上加入越来越多的元素,不断把火山图玩出花来。

        比如说,

        可以在图上标识差异基因的名字啦;

        点的颜色不仅可以用来指代基因的显著性,也可以同时承载其他信息啦;

        点的大小、形状和透明度是不是也可以用来体现一些附加信息啦。

        以下是一些文献中百花齐放的火山图,可以看到作者各种各样的巧思,值得品味。

                                     Nat Commun.2021, Nat Med. 2018, Oncol Lett, 2018

 

        聪明的你一定发现了,点的颜色、大小、形状、透明度等等,都可以用来作为补充元素展示信息,使得火山图更加丰富,也更加有趣。以后阅读文献时,看到一张复杂花哨的火山图,你是不是也有信心清楚地解读作者的巧思啦?快去实践一下吧,大Y老师为你鼓掌。

        点图的应用场景还有很多,让我们一起再接再厉,下次我们一起hold住统计界十八罗汉果之一,PCA。下回见!

        欢迎大家关注“生信识图”公众号(shengxinshitu),分享你在生信学习中的感想、困扰和乐趣。如果你在阅读文献、图形设计或者恋爱交友、吃喝玩乐方面需要任何咨询,也欢迎给大Y老师留言,大Y老师最喜欢聊天,期待看到你的消息!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值