kmeans算法

《百面机器学习》学习笔记

K均值算法的步骤、

  1. 选取初始聚类中心
  2. 通过计算距离进行聚类
  3. 重新计算聚类中心
  4. 重复2和3直到聚类中心不发生改变(或变化小于一定阈值)或者达到迭代次数上限。

K均值优缺点、

优点:1.原理简单,容易实现,收敛速度快,可解释性强;2.需要调节的参数较少(主要是聚类簇数K),且聚类效果好。

缺点:1.聚类簇数K不好把握,一般只能通过暴力搜索法来决定;2.只适合簇型数据,对其他类型数据聚类效果一般;3.当数据存在比较严重的类别不平衡时,聚类效果不好;4.当数据量比较大,计算量大,采用minBatch可以缓解,但可能会牺牲准确度。

K均值如何调优、

K均值如何改进、

  1. 随机选择K个聚类簇个数,存在很大的偶然性。可以使用改进版的kmeans++算法:a.随机选择第一个聚类簇中心点u1,b.然后计算各个样本点到该聚类中心的距离,选择距离最远的一个样本点作为第二个聚类簇中心u2,c.计算样本点到已有聚类簇中心距离,选择距离最远的样本点作为新的聚类簇中心,d.重复b和c直到找到K个聚类中心。
  2. 数据量非常大时,计算量非常大。可以使用miniBatch Kmeans:在做kmeans算法前先对大样本数据进行一个随机采样,对采样得到的样本使用kmeans聚类,进行多次miniBatch后进行多次kmeans聚类,最后选择最优的聚类簇。

K均值如何证明其收敛性

通过kmeans算法最大期望法,就可以说明EM收敛性等价于kmenas收敛性

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

haimianjie2012

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值