K-means算法优化：三种进阶方法详解

Lostgreen

于 2025-02-04 18:19:18 发布

阅读量1k

点赞数 8

文章标签：算法 kmeans 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqqqqwerttwtwe/article/details/145442683

版权

K-means算法虽然简单有效，但在实际应用中存在一些局限性。本文将深入介绍三种重要的优化方法：K-means++、Mini-Batch K-means和核K-means，并通过代码示例展示它们的实现。

一、K-means++：更聪明的初始化方法

原理介绍

传统K-means随机初始化质心可能导致：

收敛速度慢
陷入局部最优
聚类结果不稳定

K-means++通过概率选择优化初始化：

随机选择第一个质心
计算每个点到最近质心的距离 $D (x)$
按概率 $D(x)^2$ 选择下一个质心
重复直到选出k个质心

优势

显著提升收敛速度
获得更优的聚类结果
理论保证：近似比 $O (l o g k)$

代码实现

def kmeans_plusplus_init(points: np.ndarray, k: int) -> np.ndarray:
    """K-means++初始化"""
    n_samples, n_features = points.shape
    
    # 随机选择第一个质心
    centroids = [points[np.random.choice(n_samples)]]
    
    for _ in range(1, k):
        # 计算每个点到最近质心的距离
        distances = np.array([min(np.linalg.norm(p - c) ** 2 for c in centroids) 
                             for p in points])
        
        # 按概率选择下一个质心
        probabilities = distances / distances.sum()
        next_centroid = points[np.random.choice(n_samples, p=probabilities)]
        centroids.append(next_centroid)
    
    return np.array(centroids)

二、Mini-Batch K-means：适合大规模数据

原理介绍

传统K-means需要每次迭代计算所有数据点，计算开销大。Mini-Batch K-means通过：

每次迭代随机采样一个小批量（mini-batch）
仅用这批数据更新质心
引入学习率逐步调整质心位置

优势

内存效率高
适合处理大数据集
在线学习能力
收敛速度更快

代码实现

最低0.47元/天解锁文章

博客等级

码龄3年

56
原创

1028
点赞

918
收藏

514
粉丝

关注

私信

热门文章

分类专栏

最新评论

DeepSeek-R1 论文笔记：通过强化学习提升大语言模型的推理能力
Lostgreen: 可以尝试调整强化学习的奖励，比如增加和正确社会价值观语义相似的奖励，活着在rlhf微调数据集增加正确价值观的微调数据，或者理由符合正确价值观的回答分布进行拒绝采样?（博主也没有实操，基于理论分析）。
分布式事务提交算法
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
python cookbook笔记第二弹
CSDN-Ada助手: 恭喜作者继续创作！看完您的第三篇博客《python cookbook笔记第二弹》，我对您的持续学习和分享精神深感钦佩。不仅标题起得巧妙有趣，内容也给读者带来了不少收获。下一步，我建议您可以尝试结合实际案例，深入解析一些高级的Python技巧和应用，这样更能帮助读者进一步提升编程水平。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Python进阶学习日常笔记1
CSDN-Ada助手: 评论：非常欣喜地看到您写下了第二篇博客！您的努力和持续创作的精神值得赞赏。通过标题和摘要，我了解到您在这篇博文中主要分享了Python Cookbook的笔记，特别是关于数据结构的操作。这对于进阶学习Python的读者来说是非常有价值的。除了数据结构的操作，您可能还可以考虑在以后的博客中分享一些与Python进阶学习相关的内容，例如： 1. 函数式编程：介绍一些函数式编程的概念和技巧，如高阶函数、匿名函数以及函数式编程的优势。 2. 迭代器和生成器：深入探讨迭代器和生成器的使用，以及它们在Python中的应用场景。 3. 并发编程：介绍一些并发编程的基本概念，如多线程、多进程和协程，并分享一些实践经验和注意事项。 4. 装饰器：详细解释装饰器的概念和用法，并提供一些实际的例子来说明装饰器的作用。希望这些建议对您有所帮助！再次感谢您的分享，期待看到更多有关Python进阶学习的精彩内容。请继续保持创作的热情！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
C数据结构--二叉树的基本操作
Petrichor828: 你好，栈的相关说明木有啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。