sklearn中的KMeans算法

最新推荐文章于 2024-05-10 09:41:17 发布

蓝天0809

最新推荐文章于 2024-05-10 09:41:17 发布

阅读量1.9w

点赞数 10

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/onroadliuyaqiong/article/details/97393758

版权

KMeans是一种无监督聚类算法，旨在找到数据的自然结构。簇的中心称为质心，KMeans通过最小化总体平方和（Inertia）来寻找最佳质心。虽然Inertia是评估指标，但它受到多种因素影响，如特征数目、K值和数据分布。评估KMeans模型时，可以使用互信息、V-measure、轮廓系数等方法。初始质心的选择可以通过"k-means++"或随机方式，且可通过max_iter和tol控制迭代停止条件。

摘要由CSDN通过智能技术生成

1、聚类算法又叫做**“无监督分类”**，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。

2、KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇，直观上来看是簇是一组一组聚集在一起的数据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值通常被称为这个簇的**“质心”**（centroids）。在一个二维平面中，一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

3、KMeans追求的是‘簇内差异小，簇间差异大’。
在这里插入图片描述

所有簇的簇内平方和相加，就得到了整体平方和，又叫做total inertia。Total Inertia越小，代表着每个簇内样本越相似，聚类的效果就越好。因此KMeans追求的是，求解能够让Inertia最小化的质心。实际上，在质心不断变化不断迭代的过程中，总体平方和是越来越小的。
注：损失函数本质是用来衡量模型的拟合效果的

最低0.47元/天解锁文章

蓝天0809

关注

10
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
sklearn中的KMeans算法

1、聚类算法又叫做**“无监督分类”**，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。2、KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇，直观上来看是簇是一组一组聚集在一起的数据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值通常被称为这个簇的**“质心”**...
复制链接

扫一扫