热图,用带颜色的图形来展现数据,实质还是为了可视化数据。
其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。
常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
热图通过将数据矩阵中的各个值按一定规律映射为颜色展示,利用颜色变化来可视化比较数据。当应用于数值矩阵时,热图中每个单元格的颜色展示的是行变量和列变量交叉处的数据值的大小。
的所有数字采用同一个颜色显示。两者没有优劣好坏之分,具体使用取决于展示意图。
若行为基因,列为样品,则是对应基因在对应样品的表达值;若行和列都为样品,展示的可能是对应的两个样品之间的相关性。
数字映射到颜色可以分为线性映射和区间映射。线性映射是每个值都对应一个颜色,区间映射是把数值划分为不同的区间块,每个区间块。
样本相关性热图为对称热图,每个单元格代表一个相关性值,具体是哪种类型的相关性可从图例 (Legend)获取。一般结合层级聚类展示,样品相似度高的聚在一起。同时标记样品自身的分组、处理信息,查看样品聚类结果是否与生物分组吻合、差别在哪、各个生物重复的一致性怎么样、各个生物重复是与自己组的样品一致性高还是与其它组样品一致性高,这些可以反映处理的批次的影响和样品质量的好坏。
1.热图:用颜色代表数字,让数据呈现更直观,对比更明显。
作用:(1)直观呈现多样本多个基因的全局表达量变化(2)呈现多样本多基因表达量的聚类关系。
2.聚类:本质上是利用多组值间两两的差异程度或者相似程度作为依据,对多组值进行层吸聚类,以最终得到样本间聚类的远近关系。
作用:探讨样本(或基因)的表达量水平如何分类,以及相关关系