机器学习--聚类算法（第一篇：K-MEANS算法）

最新推荐文章于 2024-09-07 22:28:34 发布

小林要编程

最新推荐文章于 2024-09-07 22:28:34 发布

阅读量266

点赞数 4

文章标签：机器学习算法聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82661791/article/details/137490533

版权

本文介绍了聚类算法的基本概念，重点剖析了K-MEANS算法，包括其工作原理（如k值、质心和距离度量）、优化目标，以及其简单快速但存在k值确定困难、不适合复杂数据集的局限性。

摘要由CSDN通过智能技术生成

#前言：

上一篇博客我们简要介绍了一下有关线性回归算法的相关理论知识，了解了一些有关机器学习的基础概念，这篇博客将继续介绍一种机器学习的相关算法--聚类算法。

什么是聚类算法？顾名思义就是将传入的数据依照其相似性的特点从而分成不同的类别，本质上就是一类分类问题。同时聚类算法也是一种典型的无监督学习算法，所谓无监督学习算法就是我们所传入的数据集中并没有标签来对我们训练的结果进行纠正，这类算法普遍存在的一个训练难点就在于我们对于参数的调控。

例如上图所示，就是利用聚类算法算法所实现的一个分类效果。从上图可以看出，聚类算法将处于相近位置的点全部归为一类，从而实现了分类的效果。

#K-MEANS算法综述

K-MEANS算法是一种典型的聚类算法，在讲解其算法理论原理之前，我需要给大家介绍几个基本概念：

·参数k：k是我们人为设置的一个参数，表示我们希望算法帮助我们将数据分为几类，后续的调参工作也是围绕k展开，同时这也是一个难点。

·质心：就是对于某一个分类类别中，所有数据点的坐标均值。

·距离的度量：通常我们会用到欧几里得距离或者余弦相似度来进行距离的求解。而这里的距离就是指各个数据点与质心之间的距离大小。

·优化目标：我们的优化目标如下

如何解读上面的公式，本质上如何去判断一个分类好不好，对于K-MEANS算法来说就是每一个数据点到其分类类别质心的距离之和最小，而上述的公式表达的正是这个意思。

#K-MEANS工作流程

我们依照上图来简述一下工作流程：

1.首先在数据点中随机生成k个质心

2.遍历所有数据点，计算各个数据点分别到各个质心的距离。对于所得到的多个距离，我们将数据点划分到距离最小的质心所属的类别

3.最对现有的分别类别，重新计算质心坐标

4.重复2，3的操作，直至质心位置不在发生变化为止

#K-MEANS算法的优缺点

优点：通过上面的简单介绍不难发现，K-MEANS算法具有简单快速的特点，且对于常规数据集的处理效果十分理想

缺点：k值难以确定，不仅仅是K-MEANS算法，对于所有的聚类算法来说，参数的确定永远是一个难题。同时由于K-MEANS算法需要对所有的数据点进行多次便利，所有对于复杂庞大的数据来说，K-MEANS算法可能不是一个很好的选择。同时K-MEANS算法无法处理一些复杂不规则的数据，例如下图

我们所希望的是将该数据集分为外层和内层两个类别，但是很显然，K-MEANS算法是无法实现的。

小林要编程

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习--聚类算法（第一篇：K-MEANS算法）

同时由于K-MEANS算法需要对所有的数据点进行多次便利，所有对于复杂庞大的数据来说，K-MEANS算法可能不是一个很好的选择。同时聚类算法也是一种典型的无监督学习算法，所谓无监督学习算法就是我们所传入的数据集中并没有标签来对我们训练的结果进行纠正，这类算法普遍存在的一个训练难点就在于我们对于参数的调控。如何解读上面的公式，本质上如何去判断一个分类好不好，对于K-MEANS算法来说就是每一个数据点到其分类类别质心的距离之和最小，而上述的公式表达的正是这个意思。#K-MEANS算法的优缺点。
复制链接

扫一扫

小林要编程 CSDN认证博客专家 CSDN认证企业博客

码龄1年

7: 原创

129万+: 周排名

15万+: 总排名

3847: 访问

: 等级

168: 积分

0: 粉丝

98: 获赞

3: 评论

85: 收藏

私信

关注

热门文章

最新评论

机器学习--聚类算法（第二篇：DBSCAN算法）
CSDN-Ada助手: 恭喜作者发布了第7篇博客，内容涉及到DBSCAN算法，深入讲解了聚类算法的应用。希望作者能够继续坚持创作，分享更多有价值的内容。建议下一步可以探讨一些实际案例，结合具体应用场景，让读者更容易理解和应用算法。谦虚地建议，希望能够看到更多精彩的内容，加油！
机器学习算法--线性回归
CSDN-Ada助手: 非常棒的博客！看到你对线性回归算法的深入探讨让我受益匪浅。继续保持创作的热情和努力，相信你会在机器学习领域有更多的收获。在拟合目标值时，除了线性回归算法，还可以尝试使用正则化方法来减小模型的复杂度，比如岭回归和Lasso回归。此外，在特征工程方面，可以考虑进行特征缩放、特征组合等操作，以提高模型的性能和泛化能力。希望这些扩展知识能够对你的学习和实践有所帮助！期待看到更多精彩的分享。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
卷积入门--了解这种优美的计算方法
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
卷积入门--了解这种优美的计算方法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618176401。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。