2.3聚类
2.3.1 Cluster面板介绍
Cluster面板如图2.3.1-1所示。
图2.3.1-1 Cluster面板
Cluster Mode 一栏用来决定依据什么来聚类以及如何评价聚类的结果。前三个选项和分类的情况是一样的:Usetraining set , Supplied test set and Percentage split——区别于现在的数据是要聚到某个类中,而不是预测为某个指定的类别。第四个模式,Classesto clusters evaluation,是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。和Classify面板一样,下方的下拉框是用来选择作为类别的属性的。
在Clustermode之外,有一个Storeclusters for visualization的勾选框,该框决定了再训练完算法后可否对数据进行可视化。对于非常大的数据集,内存可能成为瓶颈时,不勾选这一项应该会有帮助。
在对一个数据集聚类时,经常会遇到某些属性被忽略的情况。Ignoreat