生信识图之 点图进阶-3(MA)

各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂。

-----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用-----

        对于“诈尸式”更新,大Y老师其实是很不赞同的,尤其是收到土豪富婆的问 (cui) 候 (geng),每天在心头惦念我粉百千次,却腾不出手来更新的时候。本来按计划呢,这一期我们应当继续PCA的进阶,不过,既然这位大牛兄弟提出来要讲一讲MA,你们猜宠粉狂魔大Y老师会作何选择呢?大Y老师真的很高兴看到有人主动提出想要了解的图,相信这位朋友一定是一位积极又努力的优秀牛。大Y老师也一如既往地欢迎大家发私信。

7b461c0972aa4c23b05859c5acccb1dc.jpeg

          至于为什么隔了这么久,大Y老师还是有必要解释一下。近期在申请几个级别较高的基金,占用了包括吃饭睡觉在内的所有时间,没能快点加更,还请各位大牛海涵(手动抱拳)。说起来,有机会的话,写一些申请书撰写的小技巧,不知大家可有兴趣?

          上次我们聊到了婚姻,正巧就出台了一项未婚已育妇女可办理生育津贴的新政。关于婚姻的内核,大Y老师与朋友展开了坦率的交流,也写了很大一段文字想与大家分享。不过可能不够zzzq,还是决定不发出来了。对于中国来说,随着经济的发展,私有化财产的增加,每个个体更加独立,思想也必然更加多元化。80、90后尚且存在“男大当婚、女大当嫁”的思维惯性,00、10、20后以后会怎么看待婚姻制度,怎么选择自己的生活方式,还真是一个未知数啊。

          从生物学的角度,结婚不属于人类本能。婚姻制度是人类社会生活的选择,是一个非常法律化、物质化、现实化的框架形式。从法律层面看,你会发现,婚姻里面所有的东西都有价格,除了爱情。为什么有人说婚姻是爱情的坟墓?相对于婚姻的极度现实,爱情极度形而上。爱情完全是精神层面的感受,没有办法用任何法律、物质、现实的载体来衡量。爱情和婚姻的矛盾冲突在婚礼现场达到第一个巅峰。假如你是个愿意留意观察人性的人,就有机会看到,台上山盟海誓的情侣,转眼可能因为礼金分配大闹脾气,象征纯洁爱情的信物,最终一定要比一比克拉大小。这种强烈对比又矛盾统一的状态,让大Y老师愿意揣着礼金,奔波于不同婚宴,并乐此不疲。人性是复杂的,观摩人性是个高深又刺激的课题(大Y老师注,观摩人性可以,但不要考验啊,考验人性是必输无疑的)。

        和结婚不同,追求爱情是人类的本能,爱情是人类的情感需求之一。如果做个类比的话,对于很多人来说,亲情就像空气,与生俱来,以至于常常忘记它的存在;友情嘛,像文凭,别管你用什么途径,只要想办法努努力,总能拥有几个,只是含金量会有区别;爱情呢,像奢侈品,摆在橱窗里闪闪发光,让每个人心生向往,但真的不是谁都可以拥有,然后就,满大街都是A货。

       那么,有什么办法可以获得真爱吗?看好了,大Y老师告诉你两点干货,第一你得真信爱情,第二,你得向内求。可能有朋友就要质疑了,说我向外追求男神女神都来不及呢,我向内能求到啥呢?你先自己琢磨琢磨,这期碎碎念太多了,下期碎碎念,大Y老师告诉你。

好啦,下面我们就要开始今天的识图之旅啦。老规矩,请大家先一起喝一口水,因为下面的内容可是全网独家干货,真的超干~

 

-----我是图图图图的分割线-----

 

【第一回合】

      MA(Minus-versus-Add)plot图还有好几个别称,这侧面说明,它的名字其实没有特别的意义。为什么需要MA plot呢?

      有时候,人们需要通过点图呈现a, b两组变量在多个因素(比如很多基因表达量)上数值的比较。最直接的就是用这两组数值分别作为横纵坐标画图,当两组毫无差异的时候,数值会全部落在45度斜线上。偏离这条斜线越远,则两组差异越大。但是并非所有人都像王濛一样,眼睛就是尺,当点比较多(如基因比较多)的时候,人很难通过一条斜线来衡量两组数值的关系,尤其很难比较不同点之间,两组到底在哪个点上差异更大。显然这样一个依赖于45度斜线的散点图并不能直观地承载有效信息。于是统计学家想到,可不可以通过某种转换,让这条45度斜线变成一条水平线,那么哪个点偏离了这条线,就一目了然了。转换后的X轴是两组数值的均值,即(a+b)2,Y轴是两组的差值,即b-a,一个是add,一个是minus,这就是MA(Minus-versus-Add)plot了。MA plot在早期microarray(芯片转录组测序)数据分析中会被使用,比如下图:

ca6ad542717a4709962328571ab45b4e.png

F1000Res2016

       XY轴都是通过转换计算的,不过不管怎么转换,只要是点图,就符合大Y老师所讲的必要元素,让我们快速复习一下点图基础,然后一起解读MA plot。

       MA plot的X轴是两组均值。由于众所周知的原因(聪明的你可以回忆一下上上期火山图的内容哦),基因表达量数值范围很大,不适合直接用实际值来画图,所以一般取的是log处理后的,表达量取值呢,CPM、TPM、FPKM,各种标化后的表达量任君选择。Y轴则是两组log处理表达量的差值。让我们来一起回忆一下高中的数学内容,log(b) – log(a) = log(b/a),这不是巧了吗这不是,刚好是logFC(聪明的你可以回忆一下上上期火山图的内容哦)。明确了X和Y轴的来历,咱们就可以轻松地解读MA plot啦。当一个点(即一个基因)的Y值是0,说明它在两组间没有差别,当它X轴数值越大,说明它在两组的均值越大。那么,当一个点的X轴数值很大,Y轴绝对值也很大的时候,就说明它是那种平均表达量高,组间差别还很大的基因,意味着这个基因一定在其中一组有着惊人的表达量。反过来,如果它Y轴绝对值很大,但是X轴数值很小,说明它很有可能是小量表达的基因,微量的变化带来较大的倍数波动。再进一步,聪明的你一定想得到,大部分Y轴绝对值大的点其实会集中在X轴数值居中的部位,所以大部分MA plot是沿X轴流线型或三角形分布的。

      当然了,跟火山图类似的,MA plot也可以增加许多补充元素,点的颜色、大小、基因标签等等,让图形更加丰富饱满。

【第二回合】

       后来,随着bulk RNA-seq越来越普及,人们发现,未必平均表达量高的基因作用就更大,所以呈现差异基因的时候,MA plot的X轴可能帮不到什么忙。因而,现在MA plot已经很少用来呈现差异基因了,更多研究选择了火山图和热图组合的形式。不过,正是因为可以同时呈现平均表达量和变化量,在质控结果呈现部分,MA plot混得倒是风生水起。一方面,可以直观展示数据测序质量。比如,如果大部分点的X轴数值都接近于0,说明基因表达量普遍偏低,可能测序深度不够,或者文库质量不好。另一方面,在RNA-seq数据的分析中,不仅需要进行标准化,还需要通过算法对数据进行降噪校正,去掉干扰信号。校正后的数据,其组间差异总体上应该较为平均地分布在Y=0两侧,也就是说,所有的点整体上看起来水平悬浮。但是,如果结果显示出这些点整体跑偏,中线严重偏离了Y=0,甚至形成了弧形,则说明校正方法可能不太适宜。

 

043b65e64e4d43ffba86e27666630157.jpeg

Abel Symposia 2016

 

        怎么样,了解了MA plot的前世今生,对于看懂点图是不是更有信心啦?支持大家多多转发,让更多的大牛们从苦学代码中解脱,也欢迎给大Y老师私信聊聊你的想法。关于点图,关于爱情,我们下期再聊。

         欢迎大家关注“生信识图”公众号(shengxinshitu),别忘了点击右上角的 ··· 加星标哦,不然后面的精彩推送无法显示(大Y老师也不太理解为什么公众号有这样的设计,请大家包涵啊,手动抱拳)。
        热烈欢迎独一无二的你分享在生信学习中的感想、困扰和乐趣。如果你在阅读文献、图形设计或者恋爱交友、吃喝玩乐方面需要任何咨询,也欢迎给大Y老师私信(评论会看不到,大Y老师也不太理解为什么公众号有这样的设计,请大家包涵啊,手动抱拳),大Y老师最喜欢聊天,期待看到你的消息!

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值