基本概念与分析原理的理解
做生物信息以来一直对排序等的概念不是特别理解。这两天查了几篇资料,梳理了一下,做一下简要的总结。
1.排序:
假设我们有一个OTU表:
行为样本,列为OTU(也可以理解为特征)。我们要对这4个样本进行排序:
假如只有一个otu: 那么根据这一个OTU在每个样本中的值就可以排序啦。
假如有两个OTU(otu_9,otu72):我们可以建立二维坐标轴,横坐标是OTU9,纵坐标为OTU72,根据这两个OTU的值,我们也可以画出点来。
假如有三个OTU:那么就是三维坐标来画点,也是可以画的。
那么大于三个OTU的时候呢?那就是n维空间中的点了,是无法画出来的。
所以我们要找到一种方法,将n维空间中的点,在二维平面内展现出来。
由于这么多的点无法共面,所以要找到一个平面,使空间中的所有点都能投影在这个平面上,而且投影的点之间的距离,越能反应真实距离越好。这个投影过程就是排序运算过程。好的排序方法是投影过程信息损失最少。
排序简单分类:
只使用物种组成数据的排序称作间接排序,