4种聚类(kmeans, kmeans++,层次聚类,DBSCAN密度聚类)

聚类的方法和结果是多种多样的,你可以使用多种方法,只要你的结果解释的合理就行,解释不好就换种方法试试

聚类数目一般不要分为太多类了,一般K小于等于5吧,看你实际情况分为几类好解释了

在这里插入图片描述

聚类之前首先标准化处理数据以消除量纲的影响

标准化处理很简单,直接在spss中描述统计就好啦

因为聚类中计算距离使用欧氏距离

除非所有指标的单位都一样,比如数据是各种消费指标,单位都是元,那就不需要标准化
在这里插入图片描述

聚类也是可以对指标分类的,只是用的很少

一般都是对样本进行聚类的

1 k-means

简单
计算效率很高
聚类结果依赖初值
在这里插入图片描述在这里插入图片描述在这里插入图片描述

2 k-means++

spss默认使用的就是kmeans++

他可以保证不同的类之间的距离可以尽量的大,这不就是聚类的初衷嘛,所以他会成功

最大的不同在于聚类初始中心的选择

轮盘法
轮盘法
轮盘法

但是,并不是说低概率的点就不会被选作聚类中心了,概率嘛,小概率也是可能发生的
在这里插入图片描述

3 系统聚类/层次聚类

解决k均值需要自己确定簇数的问题

最后生成一个谱系图

根据距离不断合并

在这里插入图片描述在这里插入图片描述在这里插入图片描述

样品与样品之间的距离

在这里插入图片描述

示例
在这里插入图片描述
最常用的是前面两个,后面三个都用很少的

指标和指标的距离(用得少)

在这里插入图片描述

相关系数是一个线性距离

示例
在这里插入图片描述

类和类之间的距离

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

即聚类中心之间的距离

在这里插入图片描述在这里插入图片描述

帮助确定类别数目k的图形方法(肘部法则)

在这里插入图片描述
k最大是n-1哈,为n还算个啥畸变程度

spss中系统聚类给出的结果中的系数,就是上图的聚合系数

在这里插入图片描述

画出聚合系数和类别数的图像,由聚合系数的定义知道,一定是随着k增大,系数减小的,递减的趋势
在这里插入图片描述在这里插入图片描述

用spss画出的聚类可视化图像(只适用于指标为2和3的可视化,实际情况一般指标多于3,是不可以这样可视化的)
在这里插入图片描述

4 DBSCAN聚类算法

这个聚类还是用得少,除非你的数据真的是很"dbscan",你懂吧,木就是挨着一坨一坨的很密集的那种

上面的k均值和层次聚类都是基于距离的

在这里插入图片描述
上图的这种数据,是只能用基于密度的聚类的,基于距离的聚类怎么着都聚不好

非常重要的参数——半径

聚类完成后,有的点不在任何类中,则为本次聚类的异常点

在这里插入图片描述

在这里插入图片描述

还是系统聚类好使啊,非常经典,能写的东西有肘部法则,谱系图,系统聚类算法流程图啥的,比k均值聚类能写的东西多得多

  • 6
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值