KMeans原理、调参及应用

一、前言

KMeans是数据挖掘十大算法之一,在数据挖掘实践中,我们也常常将KMeans运用于各种场景,因为它原理简单、易于实现、适合多种数据挖掘情景。

二、原理

KMeans的原理较为简单:以某种相似性度量为标准,确定样本的结构,即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似。

算法步骤如下:

1.决定要将样本分成几个簇,设为K;

2.初始化K个簇的中心点;

3.遍历每一个样本,计算它与K个簇中心点的相似度,并将它分配到最相似的那个簇;

4.对K个簇重新计算中心点,每个簇的中心点为该簇中所有样本的均值,若中心点不变或变化小于某个可接受的范围,则结束,否则返回第3步。

常用的相似性度量包括欧氏距离、余弦相似度等,当特征向量为低维稠密向量时可使用欧氏距离,当特征向量为高维稀疏向量时(例如文本)可使用余弦相似度,当然,具体的相似性度量的选择要根据具体的应用场景而定。

三、如何评价KMeans

使用任何一个算法或模型都免不了对模型的评估,作为模型选择、调优的依据。

KMeans的损失函数:

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值