实验目的
进一步理解聚类算法(K-平均、PAM、层次聚类、密度聚类),利用weka实现数据集的聚类处理,学会调整模型参数,以图或树的形式给出挖掘结果,并解释规则的含义。
实验要求
(1)随机选取数据集(UCI或data文件夹),需要做预处理的,单独说明处理过程。完成以下内容:(用四种方法:K-means、K-中心法、层次、密度)
- 文件导入与编辑
- 参数设置说明
- 结果截图
- 结果分析与对比
(2)以AQI.xls中1-550数据为训练数据集,用三种方法聚类,对比结果;以551-599为测试数据集,做模型评估,检验模型的正确性。
- 文件生成与编辑
- 参数设置说明
- 结果截图
- 结果分析
weather数据集
1. 文件导入与编辑
单击Open file打开data文件夹,选择weather.nominal.arff文件,导入到weka中,如图1所示。
2. 参数设置说明
2.1 K-means算法
参数设置如下图2,其中numClusters表示簇的个数,设置为6。
2.2 PAM算法
参数设置如下图3, numClusters设置为6。
2.3 层次聚类算法
参数设置如下图4, 簇的个数设置为6。
2.4 密度聚类算法
参数设置如下图5。
3. 结果截图
K-means算法结果如图6所示,PAM算法结果如图7所示,层次聚类算法结果如图8所示,密度聚类算法结果如图9所示。
4. 结果分析
K-means算法聚类起点为:
Cluster 0: rainy, mild, normal, FALSE, yes
Cluster 1: overcast, cool, normal, TRUE, yes
Cluster 2: rainy, mild, high, TRUE, no
Cluster 3: overcast, hot, high, FALSE, yes
Cluster 4: overcast, hot, normal, FLASE, yes
Cluster 5: sunny, hot, high, TRUE, no
最终集群质心为:
PAM集群质心为:
层次聚类算法结果与密度聚类算法结果未直观的读出。
比较K-means算法与PAM算法结果,可以发现初始Cluster 3完全一致,
K-means中的Cluster 0与PAM中Cluster 2、Cluster 4只有一个属性不一致,还有类似的有一个属性不一致的簇。从分析来看,两种聚类方法结果有一定的相似性。
AQI数据集
1. 文件生成与编辑
将表格中序号为1-550号的数据写入到一个csv文件中,如图10所示,作为测试数据集,序号为551-599号的数据写入另一个csv文件中,如图11所示,作为测试数据集。
通过weka的Open file功能导入刚刚生成的训练数据集,用上述聚类算法做聚类,在Test options中选择Use training set按钮如图12所示。
接着选择Supplied test set按钮,并单击Set按钮,弹出如图13所示弹窗,单击Open files选择生成的测试数据集,用测试数据集,做模型评估,检验模型的正确性。
2. 参数设置说明
参数值的设置及说明同上。
3. 结果截图
3.1 K-means算法
训练数据聚类结果如图14所示。
测试数据聚类结果如图15所示。
3.2 PAM算法
训练数据聚类结果如图16所示。
测试数据聚类结果如图17所示。
3.3 层次聚类算法
训练数据聚类结果如图18所示。
测试数据聚类结果如图19所示。
3.4 密度聚类算法
训练数据聚类结果如图20所示。
测试数据聚类结果如图21所示。
4. 结果分析
K-means算法测试集数据属于训练集生成的簇0、1、2、5;
PAM算法测试集数据属于训练集生成的簇0、2、3、4;
层次聚类算法测试集数据属于训练集生成的簇0、1、2、4;
密度聚类算法测试集数据属于簇0的占82%,簇1的占18%。