unsupervised learning K-Means聚类方法

最新推荐文章于 2022-09-11 16:49:32 发布

hewesH

最新推荐文章于 2022-09-11 16:49:32 发布

阅读量187

点赞数

文章标签： unsupervised learning kmeans算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cxx05260/article/details/109107132

版权

#K-Means聚类

对样本的分类称为Q型聚类
对变量的分类称为R型聚类

##聚类算法的类型

1.基于划分的方法

基本思路：假设我们有一堆样本要聚类，想要的聚类效果是类内的样本足够近，类间的样本足够远。

2.基于层次的方法

分为凝聚法（自下而上）和分裂法（自上而下）两种。

3.基于密度的方法

避免了划分和层次只能发现凸聚类，基于密度的聚类方法可以发现任意形状的聚类簇，过滤低密区域，从而发现稠密样本点，对于带噪声的数据起着重要的作用。

4.基于网格的方法

网格作为数据结构，将空间中每个样本对应到网格中，提高了对样本的处理速度，关键在于设置网格大小。

5.基于类型的聚类方法

该类方法假设目标的样本集由概率分布决定，那么每一个样本都对应一个数学模型，聚类的过程是将样本集与某个模型拟合的过程。

##样本相似度的度量

距离衡量

欧式距离
曼哈顿距离
切比雪夫距离
夹角余弦距离

关联衡量

匹配系数匹配系数越大两个样本越相似
相似比

##K-Means聚类算法过程

从样本中随机选择k个样本作为初始的聚类中心。
计算每个样本到初始聚类中心的距离（一般用欧式距离），将样本分配到距离最近的类中。
将所有样本都分配完成，重新计算k个聚类的中心，新的聚类中心即是该簇所有的平均值。
重复2、3.
聚类中心不再改变或者满足一定条件，结束该算法。

##算法的优缺点

优点
调节的参数只有k
对于大数据，算法相对可伸缩和高效，复杂度较低
缺点
结果很大程度上依赖初始随机的聚类中心，可能导致聚类的结果是局部最优
k值需要执行多次才能调整到合适的值
噪声点和异常值非常敏感
只适用于数值型样本数据

遇到的问题：
关于凸聚类概念比较模糊，接下去还需要去进一步深入理解其中的理论知识。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
unsupervised learning K-Means聚类方法

#K-Means聚类对样本的分类称为Q型聚类对变量的分类称为R型聚类##聚类算法的类型1.基于划分的方法基本思路：假设我们有一堆样本要聚类，想要的聚类效果是类内的样本足够近，类间的样本足够远。2.基于层次的方法分为凝聚法（自下而上）和分裂法（自上而下）两种。3.基于密度的方法避免了划分和层次只能发现凸聚类，基于密度的聚类方法可以发现任意形状的聚类簇，过滤低密区域，从而发现稠密样本点，对于带噪声的数据起着重要的作用。4.基于网格的方法网格作为数据结构，将空间中每个样本对应到网格中，提
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hewesH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。