【聚类算法】Kmeans聚类

胡侃有料

已于 2023-06-27 16:23:49 修改

阅读量165

点赞数

分类专栏： # 算法合集文章标签：算法聚类 kmeans

于 2023-06-27 15:58:20 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/weixin_39190382/article/details/131379283

版权

算法合集专栏收录该内容

10 篇文章 3 订阅

订阅专栏

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

Kmeans梗概

1. 正文

1.1 简介

简单来说，对于一堆数据，先选出k个样本作为簇中心，并所有样本到他们的距离，根据距离远近，划分到其中最近的一个簇中心；对于得到的各个簇，计算他们各自的平均值作为新的簇中心，重复上面过程，直到簇中心变化趋于稳定。即完成了对数据的聚类。

整体过程也比较好理解。

1.2 步骤

数据预处理，主要为：数据标准化和异常点过滤。
随机选取k个中心
计算样本到k个中心的距离，将其分配到最近的某个中心
对于上面划分出的的若干个类，重新计算各类的中心
重复上面3、4步，直到最后中心稳定。

1.3 k的选择

1.3.1 拐点法（手肘法）

计算不同k值下，距离平方和，随着k值的增加，距离会逐渐变小。当斜率突然由大变小时，且之后变化缓慢，则认为k值为合适的kz值。

在这里插入图片描述

1.3.2 轮廓系数

每个样本都有对应的轮廓系数，其有两部分组成：

样本与同一簇类（类内）中其他样本点的平均距离（量化凝聚度）
样本与距离最近的簇类（类间）中所有的样本平均聚类（量化分类度）

$\over max(a,b)}$
S取值为[-1，1]

一组数据集中轮廓系数：等于该数据集中每个样本的轮廓系数的平均值

1.4 优缺点

(1).优点

属于无监督学习，不需要标签
原理简单，实现容易
结果可解释性好

(2).缺点

聚类数据k的选取，选择不当可能得到不理想的结果
可能收敛到局部最优，在大规模数据上收敛较慢
对噪声、异常点比较敏感

1.5 算法改进

主要有以下方法（暂时不展开）

kmeans++
二分kmeans
minbatchKmeans

参考

[1] https://blog.csdn.net/Claire_chen_jia/article/details/111060253#t2
[2] https://blog.csdn.net/weixin_45788069/article/details/108853816#t3
[3] https://blog.csdn.net/qq_43741312/article/details/97128745#t11
[4] https://zhuanlan.zhihu.com/p/432230028
[5] https://www.zhihu.com/tardis/zm/art/158776162?source_id=1005
[6] https://zhuanlan.zhihu.com/p/184686598

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

胡侃有料 CSDN认证博客专家 CSDN认证企业博客

码龄7年

403: 原创

1349: 周排名

7625: 总排名

95万+: 访问

: 等级

9154: 积分

4万+: 粉丝

1632: 获赞

436: 评论

5410: 收藏

私信

关注

热门文章

分类专栏

最新评论

【sklearn】有关数据归一化小结---fit_transform、fit、transform区别及其简单使用
the_king_1234: 博主我新手，我感觉您numpy那好像不太对我是学机器学习的，一般比如一个m行n列的矩阵，都是针对每一列求个标准化，所以应为np.std(a,axis=0) 与 np.std(a,axis=0),这时候求出来的就是每个数据根据每一列做的标准化，博主您好像是每一个数据基于所有数据做的标准化。当然可能是机器学习这样用，也许别的方面我就不懂了
【logging】python之日志记录
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
【形心】不规则多边形形心计算方法（含面积计算）
时间的朋友804: 不错，之前思考很久没想通的，最近正好想明白了，网上一搜结果跟我的方法一样，不过我的稍复杂点，从图形内选取一点构造三角形切分
【pytorch】RuntimeError: 1only batches of spatial targets supported (3D tensors) but got targets of si
红鲜花: 你好，请问这行代码应该加在哪里啊？
【经典算法】有趣的算法之---粒子群算法梳理
小学生的学习笔记: 就是那个y=这个函数写进去就行。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

胡侃有料 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。