K-means聚类

不同于分类模型,不知道种类是什么,比如苹果我们知道是水果,但聚类针对的是不知道其种类的情况

方法流程

一、指定需要划分的簇的个数K值(类别的个数)

二、随机选择K个数据对象作为初始的聚类中心(不一定是我们的样本点,任意取)

三、把样本划划分到聚类中心,把对象划分到距离最近的那个中心

四、更新中心,取类的重心

五、重复三、四步骤

优点在于高效快速,缺点在于主观选组簇时对最后结果影响很大,孤立点敏感

为此提出K-means++算法

一、随机选取一个样本点作为第一个聚类中心,这里必须包括了样本点

二、计算每个样本到中心的距离,且认为,距离越大,被选为聚类中心的概率越大,然后通过轮盘法从这些远距离的点里选则下一个聚类中心(当选择到底三个点的时候,我们取第一个点和第二个点的中心,其他的类似)

三、重复二

在spss中进行分类—聚类

如过量纲不同的话,可以采取标准化:(x-x均值)/标准差

spss中可以进行描述性统计标准化之后的数据在进行聚类

但是,K-means++依然不能解决初值选定问题,2类3类抑或是4类还是带有主观性

系统聚类可以解决K问题,通过spss生成谱系图,得到K

也可以通过肘部法则,在spss中得到系数之后excel中生成聚合系数折线图,斜率表示畸变程度,当畸变程度趋于稳定时,可以取K

(当选取两个或者三个指标的时候,可以根据分类画一个示意图,但仅限于二维三维)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值