sklearn中的KMeans算法

KMeans是一种无监督聚类算法,旨在找到数据的自然结构。簇的中心称为质心,KMeans通过最小化总体平方和(Inertia)来寻找最佳质心。虽然Inertia是评估指标,但它受到多种因素影响,如特征数目、K值和数据分布。评估KMeans模型时,可以使用互信息、V-measure、轮廓系数等方法。初始质心的选择可以通过"k-means++"或随机方式,且可通过max_iter和tol控制迭代停止条件。
摘要由CSDN通过智能技术生成

1、聚类算法又叫做**“无监督分类”**,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。

2、KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值通常被称为这个簇的**“质心”**(centroids)。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

3、KMeans追求的是‘簇内差异小,簇间差异大’。
在这里插入图片描述
在这里插入图片描述
所有簇的簇内平方和相加,就得到了整体平方和,又叫做total inertia。Total Inertia越小,代表着每个簇内样本越相似,聚类的效果就越好。因此KMeans追求的是,求解能够让Inertia最小化的质心。实际上,在质心不断变化不断迭代的过程中,总体平方和是越来越小的。
注:损失函数本质是用来衡量模型的拟合效果的

  • 10
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值