4种聚类（kmeans, kmeans++，层次聚类，DBSCAN密度聚类）

最新推荐文章于 2024-04-08 20:57:40 发布

doubleslow;

最新推荐文章于 2024-04-08 20:57:40 发布

阅读量3.5k

点赞数 6

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36607894/article/details/100884332

版权

机器学习专栏收录该内容

46 篇文章 14 订阅

订阅专栏

文章目录

聚类之前首先标准化处理数据以消除量纲的影响
聚类也是可以对指标分类的，只是用的很少
1 k-means
2 k-means++
3 系统聚类/层次聚类
帮助确定类别数目k的图形方法（肘部法则）
4 DBSCAN聚类算法

聚类的方法和结果是多种多样的，你可以使用多种方法，只要你的结果解释的合理就行，解释不好就换种方法试试

聚类数目一般不要分为太多类了，一般K小于等于5吧，看你实际情况分为几类好解释了

在这里插入图片描述

聚类之前首先标准化处理数据以消除量纲的影响

标准化处理很简单，直接在spss中描述统计就好啦

因为聚类中计算距离使用欧氏距离

除非所有指标的单位都一样，比如数据是各种消费指标，单位都是元，那就不需要标准化
在这里插入图片描述

聚类也是可以对指标分类的，只是用的很少

一般都是对样本进行聚类的

1 k-means

简单
计算效率很高
聚类结果依赖初值
在这里插入图片描述

2 k-means++

spss默认使用的就是kmeans++

他可以保证不同的类之间的距离可以尽量的大，这不就是聚类的初衷嘛，所以他会成功

最大的不同在于聚类初始中心的选择

轮盘法
轮盘法
轮盘法

但是，并不是说低概率的点就不会被选作聚类中心了，概率嘛，小概率也是可能发生的
在这里插入图片描述

3 系统聚类/层次聚类

解决k均值需要自己确定簇数的问题

最后生成一个谱系图

根据距离不断合并

在这里插入图片描述

样品与样品之间的距离

在这里插入图片描述

示例
在这里插入图片描述
最常用的是前面两个，后面三个都用很少的

指标和指标的距离（用得少）

在这里插入图片描述

相关系数是一个线性距离

示例
在这里插入图片描述

类和类之间的距离

在这里插入图片描述

即聚类中心之间的距离

在这里插入图片描述

帮助确定类别数目k的图形方法（肘部法则）

在这里插入图片描述
k最大是n-1哈，为n还算个啥畸变程度

spss中系统聚类给出的结果中的系数，就是上图的聚合系数

在这里插入图片描述

画出聚合系数和类别数的图像，由聚合系数的定义知道，一定是随着k增大，系数减小的，递减的趋势
在这里插入图片描述

用spss画出的聚类可视化图像（只适用于指标为2和3的可视化，实际情况一般指标多于3，是不可以这样可视化的）
在这里插入图片描述

4 DBSCAN聚类算法

这个聚类还是用得少，除非你的数据真的是很"dbscan",你懂吧，木就是挨着一坨一坨的很密集的那种

上面的k均值和层次聚类都是基于距离的

在这里插入图片描述
上图的这种数据，是只能用基于密度的聚类的，基于距离的聚类怎么着都聚不好

非常重要的参数——半径

聚类完成后，有的点不在任何类中，则为本次聚类的异常点

在这里插入图片描述

在这里插入图片描述

还是系统聚类好使啊，非常经典，能写的东西有肘部法则，谱系图,系统聚类算法流程图啥的，比k均值聚类能写的东西多得多

关注

6
点赞
踩
36

收藏

觉得还不错? 一键收藏
3
评论
4种聚类（kmeans, kmeans++，层次聚类，DBSCAN密度聚类）

k-meansk-means++系统聚类/层次聚类
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。