泻药,本文在数据集上展示了如何来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析)。
原文链接:R语言鸢尾花iris数据集的层次聚类分析tecdat.cn
介绍
本文在数据集上展示了如何来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析)。
背景
鸢尾花数据集
我们可以看到,Setosa物种与Versicolor和Virginica明显不同(它们具有较低的花瓣长度和宽度)。但是,基于对萼片和花瓣宽度/长度的测量,不易将Versicolor和Virginica分开。
通过查看数据的平行坐标图可以得出同样的结论:
我们可以通过将对象转化为树状图并对对象进行一些调整来可视化运行它的结果
相同的可以在圆形布局中呈现:
这些可视化很容易证明分层聚类的分离对于“Setosa”物种来说是非常好的,但是在将许多“Versicolor”物种标记为“Virginica”时未能实现。
我们也可以使用热图探索数据。
在热图中,我们还可以看到Setosa物种的花瓣值如何(浅黄色),但很难看出其他两种物种之间的明显区别。