鸢尾花数据集是一组常用的机器学习数据集,其中包含150个样本,每个样本有4个特征:萼片长度、萼片宽度、花瓣长度、花瓣宽度。每个样本还有一个类别标签,分为3类:山鸢尾、变色鸢尾、维吉尼亚鸢尾。
在聚类分析中,我们希望将样本分成几个簇(cluster),使得簇内的样本相似度尽可能大,而簇间的样本相似度尽可能小。
对于鸢尾花数据集,我们可以使用聚类算法(如 K-Means)将样本聚成3个簇,每个簇对应一种类型的鸢尾花。这样,我们就可以通过聚类分析,对鸢尾花数据进行分类。
注意,聚类分析与分类(classification)不同,聚类分析是无监督学习,不需要事先提供类别标签,而是通过计算样本之间