机器学习实战之k-means

本文介绍了k-means聚类算法,包括聚类和分类的区别、k-means的工作原理、算法流程、代码实现、聚类质量评估以及对局部最小值问题的解决方案——二分k-均值算法。通过对SSE的分析,展示了如何优化聚类效果。
摘要由CSDN通过智能技术生成

1. 分类和聚类

分类的目标事先已知,聚类产生的结果和分类一样,但是其类别没有预先定义。聚类是无监督的,无监督学习没有训练过程。

聚类分析就是将相似对象归入同一簇,不相似对象分到不同簇。相似取决于所选择的相似度计算方法,算法性能将会受到相似度计算方法的影响。

2. k-均值聚类算法

(1)定义

k-means是发现给定数据集的k个簇的算法。簇个数k用户指定,每一个簇通过其质心即簇中所有点的中心来描述。

(2)工作过程

创建k个点作为起始质心(一般是随机选择或者也可以从数据集中随机选择k个样本)

当任意一个点的簇分配结果发生改变时

对数据集中的每个点

对每个质心

计算质心与该数据点之间的距离

将该数据点的簇更新为距离最小的簇

对每个簇,通过计算簇中所有数据点的均值来更新簇的质心

(3)实现代码


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值