你是否遇到过这种情况,面对大规模数据集时,数据密集重叠,无法查看?今天给大家分享一款工具,正好可以解决这个问题。
图表详解
六边形热图(Hexagonal Heatmap)也称六边形分箱图(Hexagonal Binning),是一种由六边形为主要元素构成的统计图表。它既是散点图的延伸,又兼具直方图(频数统计)和热图(按值着色)的特征。
当需要分析变量之间的关系时,通常人们习惯用散点图来呈现,外加拟合线以寻找趋势。但是,随着数据集越来越大,图形中的散点也越来越多,数据点不可避免会密集重叠在一起、以至于很难分辨出趋势、发现聚类特征。
那么,如何解决上述问题呢?我们可以引入“密度”的概念,即以特定的数值区域为单位,统计这个区域里散点出现的频数,然后借鉴热图的特征,用不同的颜色代表频数的高低。这样一来,散点的分布情况就一目了然了。
为何要使用六边形来框定范围呢?从设计学上讲,比起矩形,六边形更趋近于一个圆,这样可以更有效的围绕图形中心聚合数据。此外,六边形也方便衔接,排列起来也更加美观。
适用场景
适用于大规模的数据集,可以将散点聚合起来,更好的反映数据的聚集情况、发现变量之间的关系。数据少时,可以直接用散点图,没有必要进行聚合展示。
案例欣赏
本文推荐一款“派森诺基因云(http://www.genescloud.cn/)”开发的“交互六边形热图”,无需编写代码,只需上传数据,一键即可生成图片。
1. 数据上传
2 图表调整
可以调整六边形的颜色,多种专业期刊配色随意切换。
同时也可以调整六边形边框的颜色,粗细,线条样式, 让图表更美观更有设计感!
正如直方图需要确定组距(bin)的大小,绘制六边形热图时,也需要确定六边形的大小。六边形越小,精度越高。“交互六边形热图”小工具可以调整x,y轴分箱数目。不同的大小,可能带来不同的结论,因此建议大家多加尝试。
其它热图
除了上述“交互六边形热图”,“派森诺基因云(https://www.genescloud.cn/)”也开发了“交互螺旋热图”、“交互热图”等很不错的工具。大家有兴趣可以试试看。