《机器学习实战》K-均值聚类算法

最新推荐文章于 2024-07-11 13:52:29 发布

雪儿和颖儿

最新推荐文章于 2024-07-11 13:52:29 发布

阅读量566

点赞数

本文链接：https://blog.csdn.net/Graceguanguan/article/details/104472262

版权

本文介绍了K-均值聚类算法，它适用于数值型数据，易实现但可能陷入局部最小值。算法流程包括随机初始化质心，根据最近质心分配数据点，更新质心为簇内点的均值。通过sklearn库展示了在鸢尾花数据集上的应用。

摘要由CSDN通过智能技术生成

聚类，是把相似数据归到一起。聚类与分类被最大不同在于，分类的目标事先已知，而聚类的目标事先未知。

K均值聚类算法：

1、适用数据类型：数值型数据。需要数值型数据来进行距离计算，也可以将标称型数据映射为二值型数据再用于距离计算。

2、优点：容易实现

缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢

工作流程为：首先，随机确定K个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距其最近的质心，并将其分配给该质心所对应的簇。这一步完成之后，每个簇的质心更新为该簇所有点的平均值。

伪代码如下：

创建K个点作为起始质心（经常是随机选择）

当任意一个点的簇分配结果发生改变时

对数据集中的每个数据点

对每个质心

计算质心与数据点之间的距离

将数据点分配到距其最近的簇

对每一个簇，计算簇中所有点的均值并将均值作为质心

import numpy
import math

#k-均值聚类支持函数
#loadDataSet()和上一章完全相同，它将文本文件导入到一个列表。
#下一个函数distEclud()计算两个两个向量的欧式距离。
#randCent(),该函数为给定数据集构建一个包含K个随机质心的集合。随机质心必须要在整个数据集的边界之内，这可以通过找过找到数据集每一维的最小和最大值来完成。
#然后生成0到1.0之间的随机数并通过取值范围和最小值。
def l

最低0.47元/天解锁文章

雪儿和颖儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》K-均值聚类算法

聚类，是把相似数据归到一起。聚类与分类被最大不同在于，分类的目标事先已知，而聚类的目标事先未知。K均值聚类算法：1、适用数据类型：数值型数据。需要数值型数据来进行距离计算，也可以将标称型数据映射为二值型数据再用于距离计算。2、优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢工作流程为：首先，随机确定K个初始点作为质心。然后将数据集中的每个点分配...
复制链接

扫一扫