如何优化Kmeans?

想要知道如何优化Kmeans,首先得知道:

  1. 什么是Kmeans?
  2. Kmeans的优点;
  3. Kmeans的缺陷;
    知道了以上这些知识点,我们才能针对性优化Kmeans。

Kmeans是一种非监督的聚类算法,首先选取K值,并随机初始化K个质心,计算每个样本与质心的相似度,将样本划分到距离其最近的一个质心的堆簇,然后计算每个堆簇的新的质心,迭代上述过程,直到质心没有新的变动。如果数据集很大,Kmeans的收敛速度会很慢。

Kmeans的算法流程
• 初始化常数K,随机选取初始点为质心
• 重复计算以下过程,直到质心不再改变
o 计算样本与每个质心之间的相似度,将样本归类到最相似的类中
o 重新计算质心
• 输出最终的质心以及每个类

Kmeans的优点:
非常简单,易于实现。

Kmeans的缺陷:

  1. K值需要预先选定,K值的选择对于最后的聚类效果影响非常大。需要一定的先验知识。
  2. Kmeans对于质心的初始点位置敏感,不同的初始化位置会导致不同的聚类结果。
  3. 对离群点(异常点)敏感。

针对以上三个缺陷,提出如下三个优化方法:

  1. 针对K值选择,使用先验知识选取K的备选。
  2. 针对初始化质心,二分K-均值。具体:首先将数据集划分为一个群簇(整体),然后将其一分为二,最大限度降低聚类代价函数(误差平方和函数),形成两个群簇。迭代这个过程,直到群簇数量等于K值。
  3. 对数据集的异常样本做处理。

更多学习资料,请关注下面的公众号:不定期分享

深度学习网络总结
机器学习算法及其应用场景
算法与数据结构(leetcode 题解)
cuda编程与并行优化
其他读书分享如:《战国策》,《智囊全集》
宇宙常识科普与星座辨别等等.
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值