聚类分析 | 最优K-means聚类算法(Python)

10 篇文章 2 订阅 ¥19.90 ¥99.00

无监督机器学习,特别是聚类(clustering)对各种实际业务分析项目至关重要。但是,部分聚类算法需要设置聚类的数量,这是聚类算法的重要挑战之一。

通常,在处理数据时,使用迭代方法来决定最优簇群的数量。这意味着我们要多次进行聚类,每次使用不同数量的集群,并评估相应的结果。虽然这种技术很有用,但它也有局限性。

yellowbrick是一个常用的工具,可以轻松识别最优集群的数量。然而,它也有一些缺点。一个重要的缺点是在评估多个指标时可能出现相互冲突的结果以及在图表上识别肘部(elbow)的挑战。

此外,无论使用哪个软件包,数据集的大小都会带来另一个问题。当处理大型数据集时,资源消耗困难可能会妨碍我们有效地进行迭代。如果是这种情况,考虑诸如MiniBatchKMeans之类的技术,它可以提供并行聚类。

MiniBatchKMeans 是一种 K-means 聚类算法的变体,它是 K-means 的一种加速版本。K-means 是一种无监督学习算法,用于将数据集划分为 k 个不同的组(簇),使得每个数据点都属于最接近的簇的中心。而 MiniBatchKMeans 在大规模数据集上执行 K-means 聚类时,通过随机抽取小批量(mini-batch)样本进行迭代训练,从而降低计算成本。

但是,聚类程序的高级优化可能需要一些鲜为人知的技术,下面将进一步介绍。并且,还将了解kscorer软件包,它简化了这些技术,为确定最佳聚类数量提供了更强大、更高效的方法。

聚类的高级优化技术包括:

降维:在应用聚类算法之前,对数据执行主成分分析(PCA)可能是有益的。这将减少数据干扰,导致更可

  • 19
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天天酷科研

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值