不同于分类模型,不知道种类是什么,比如苹果我们知道是水果,但聚类针对的是不知道其种类的情况
方法流程
一、指定需要划分的簇的个数K值(类别的个数)
二、随机选择K个数据对象作为初始的聚类中心(不一定是我们的样本点,任意取)
三、把样本划划分到聚类中心,把对象划分到距离最近的那个中心
四、更新中心,取类的重心
五、重复三、四步骤
优点在于高效快速,缺点在于主观选组簇时对最后结果影响很大,孤立点敏感
为此提出K-means++算法
一、随机选取一个样本点作为第一个聚类中心,这里必须包括了样本点
二、计算每个样本到中心的距离,且认为,距离越大,被选为聚类中心的概率越大,然后通过轮盘法从这些远距离的点里选则下一个聚类中心(当选择到底三个点的时候,我们取第一个点和第二个点的中心,其他的类似)
三、重复二
在spss中进行分类—聚类
如过量纲不同的话,可以采取标准化:(x-x均值)/标准差
spss中可以进行描述性统计标准化之后的数据在进行聚类
但是,K-means++依然不能解决初值选定问题,2类3类抑或是4类还是带有主观性
系统聚类可以解决K问题,通过spss生成谱系图,得到K
也可以通过肘部法则,在spss中得到系数之后excel中生成聚合系数折线图,斜率表示畸变程度,当畸变程度趋于稳定时,可以取K
(当选取两个或者三个指标的时候,可以根据分类画一个示意图,但仅限于二维三维)