生信识图之 点图进阶-5(tSNE)

各位亲爱的土豪富婆,见字如面。

经常有做实验很大牛的朋友请大Y老师帮忙分析数据,常常出现的情况是:

“大Y老师,麻烦帮我分析这个数据!”“好啊,你想画什么样的图?”“我不知道….”

“大Y老师,谢谢你给我分析的结果!”“好啊,有什么想法?”“我看不懂…”。

这种小尴尬多了以后,大Y老师非常能理解各位大牛面对生信图表时的窘迫。做实验好歹有明确的实验流程,结果也很清楚,有就是有,没有就是没有。但是生信不一样,分析的思路、图表的呈现、甚至结果的解读,都很灵活。所以各位大牛在面对生信的时候,得稍微转变转变思想,用各位聪明的脑袋瓜时刻开启头脑风暴。

但是风暴没法平地起,平地起的那是妖风。要想把头脑风暴吹得漂亮,对生信基础图表得有一定了解。这就是为什么大Y老师坚持跟大家循序渐进地分享生信识图,希望各位聪明又用功的大牛可以掌握好基础知识,相信大家都会有在生信图表世界中,乘风而起,直上青云的一天。

-----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用-----

上次咱们聊到信爱情,得真信。值得一提的是,真信与否,往往不是一成不变的。有的人从笃信变得不信,也有人从不在乎变得甘之如饴。人生际遇就是这么奇妙。

亲爱的朋友们,如果你选择真信,那么怎样才能收获爱情呢?大Y老师的建议是,向内求。天天给女神送花,给男神送饭,大概率被发好人卡,小概率被报警,极小极小概率在女神男神精神空虚的间隙短暂替补,但是绝对不可能真正拥有与TA的爱情。爱情讲究旗鼓相当,单箭头的追是追不到的。向内求什么呢?简单说,什么都求。今天的自己有没有比昨天更干净整洁?脸上的笑容有没有更多?心中的梦想是不是更笃定?学业有没有更进步一点?生活中的阳光有没有更多?收入有没有更高?本职和兼职有没有做得更好?假如还没有,那就再努努力。把每天过得饱满,让对内的追求占满整个世界。当有一天,达到完全地关注自身与内心的进步,对周遭的人,周遭的事,就会变得非常宽容。谁与谁谈恋爱啦,谁与谁分手啦,谁谁谁怎么怎么样啦,谁对你说了什么话,使了什么表情,这些事情再也干扰不到你的情绪,因为每时每刻,你都知道自己要的是什么,整个人会散发坚定和从容的气场。相信大Y老师,那时候,爱情自己就会找上门来。你最终会在一个沉浸于向内求,甚至完全忘记追求爱情的阶段,不经意间与一个人四目相对,一眼入心。在收获爱情的同时,你还会收获一个更加优秀温暖的自己。

-----我是图图图图的分割线-----

前几期我们花了一些时间详细研究了PCA。因为,作为降维概念的先驱,PCA对我们理解生信进入单细胞时代后的各种降维方法具有重要指导意义。各位大牛还记得重点吗?让我们来自测一下:

提问:PCA plotXY轴分别代表什么,聪明的你可以回答吗?

如果觉得记忆不深刻了,可以点击下面的链接来巩固一下,不要着急。

https://mp.csdn.net/mp_blog/creation/editor/127132928

PCA可以在一定样本量范围内很好的区分样本分组。这里有两个前提,第一是在一定样本量范围内(=样本别太多),第二是默认样本会分组(=组间差异够大)。随着单细胞测序方法的应用,我们发现这两个前提被打破了。动辄几万甚至几十万的细胞数,而且单个细胞之间的差异很小,并不存在泾渭分明的分组。人们发现,如果用PCA进行单细胞的降维,点与点区分不明显,场面就会变得有点尴尬,比如这样:

BMC Genomics 2019

这么多的点不适合直接进行二维或三维投影。为了在二维或三维空间更好地展示这么多点的分布特征,很多新的降维方法应运而生,其中之一就是tSNE,中文音译“踢死你”,全称为t-Distributed Stochastic Neighbor Embedding (基于t分布的随机近邻嵌入)。由于单细胞测序样本量(细胞数)很大,所以tSNE图上的点要远远多于PCA,图看起来更花哨。不过万变不离其宗,我们只要掌握了点图基础中提到的点图必要元素只包括X轴坐标和Y轴坐标,掌握tSNE也是分分钟的事。

tSNE大白话基础

我们先回顾一下PCA的原理。PCA在多维空间找到两条或者三条最能解释所有点方差的轴,然后将所有点直接投影到这个二维或三维空间。这有些像一个“压缩”的过程。与压缩方向接近的维度上的差异就被扁平化了,就像你踩扁易拉罐时,顶部和底部的点完全重合,损失了哪个点是顶部,哪个点是底部的信息。所以我们看到PCA应用于单细胞数据降维展示的时候,会出现很多重合的点。tSNE为了解决这个问题,要求降维展示的点仍然保留它们在高维空间的距离分布特征,就像你踩扁易拉罐时,顶点和底点不许重合。怎么实现呢?我们不要直直地踩下去,斜着踩,踩的时候让顶部和底部错开一点行不行?这样虽然错开了顶部的点和底部的点,总归易拉罐侧壁上也会有本不相邻的点被压在一起。

看来简单地踩上一脚无法解决这个问题。要想让易拉罐上的点在踩扁后还能反映原来的距离特征,得把这个易拉罐上的点拆开了。咱们简化一些,假设把这个易拉罐拆成顶点、底点、侧壁随机上选A\B\C\D四个点,一共六个点。然后我们要在易拉罐踩扁前,帮每个点计算它与另外五个点的距离,离得近的,踩扁后距离也要近些,离得远的踩扁后距离要远些。对顶点来说,它有五个数值,对应其与另外五个点的距离。对应底点来说,它也有五个数值,对侧壁的四个点来说,也各自有五个数值。这些数值就是多维空间中的真实距离。这时候我们再把这六个点想办法摆到一个平面内,做到它们之前的距离与空间真实距离具有相同的分布情况,这就是“SNE”。

多维空间真实距离有大有小,对应到二维平面或三维空间的距离也有大有小。SNE将这些距离大小的分布都看作高斯分布(抛物线样的曲线)。后来进一步改进,将这些距离经过运算转化成t分布,好处是什么呢?t分布比高斯分布的曲线“更扁”,两边的拖尾更长,这样转化后的距离彼此间差异更大(距离远的变得更远,距离近的变得更近),画到二维或三维空间,点与点更容易区分开。

看到这里,聪明的你一定想到了,tSNE与PCA有很大的区别,在于PCA的投影更为直接,而tSNE对点与点的距离进行了t分布转化,满足所有点整体上在这个二维或三维空间中的分布情况与多维空间的分布特征一致。用大白话说,tSNE图需要从整体上解读所有点的分布特征,而具体比较某两个点之间的距离没有实际意义。所以在文献阅读时,我们会发现,tSNE经常用来展示细胞的整体分群情况,如果有人去具体地比较某几个点的距离,那么他可是个“外行”哦。

现在对tSNE的原理是不是更清楚了一些?最后,让我们用一张炫酷的tSNE图镇贴。聪明的你能否试试独立解读这张图?

Nat Commun. 2020

好啦,这一期的分享就到这里,让我们步履不停,下期再会。

欢迎大家关注“生信识图”公众号(shengxinshitu),别忘了点击右上角的···加星标哦,不然后面的精彩推送无法显示(大Y老师也不太理解为什么公众号有这样的设计,请大家包涵啊,手动抱拳)。
         热烈欢迎独一无二的你分享在生信学习中的感想、困扰和乐趣。如果你在阅读文献、图形设计或者恋爱交友、吃喝玩乐方面需要任何咨询,也欢迎给大Y老师私信(评论会看不到,大Y老师也不太理解为什么公众号有这样的设计,请大家包涵啊,手动抱拳),大Y老师最喜欢聊天,期待看到你的消息!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值