MS聚类分析算法
它是一种“分段”或“聚类”算法,以将示例分组到包含相似特征的分类中。
它首先标识数据集中的关系,并根据这些关系来生成一系列分类,可以设置MiniMum_Support(分类的最小支持量)和Cluster_Count(大致分类数)来限制分类的数量
它有两种分类算法,通过clustering_method属性来设置
3.1. K-means算法,每个数据点只属于一个分类
3.2. EM算法(默认),每个数据点属于多个分类决策树与聚类算法的区别
4.1. 决策树:是以目标为导向,分析各属性及其值对目标的影响度来逐步生成决策树的,它最重要的作用是获取输入对输出的想象力的排序。
4.2. 聚类:是根据各属性间的关系来对数据进行分类,它最重要的作用是获取各个群体的共有属性决策树模型所需数据
5.1. 单键列:数据的主键,不允许复合键
5.2. 输入列:要输入到算法里的数据列,可为离散或连续类型
5.3. 可预测列:输出,要预测的结果(方向)建立聚类算法挖掘结构
6.1. 参照决策树算法挖掘结构的建立,除了算法不一样,其它的在向导中都一样
6.2. 打开“挖掘模型”-》右键“MicroSoft_Clustering”算法-》设置算法参数-》将“Clustering_Count”设置为8,意思是大致分成8个分类查看——挖掘模型查看器
7.1. 分类关系图:可以看到算法计算出的分类,和分类间的关