【机器学习】常用聚类算法原型

最新推荐文章于 2024-07-30 01:28:06 发布

JasonLeeeeeeeeee

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：聚类 DBSCAN K-MEANS 层次聚类机器学习

本文链接：https://blog.csdn.net/JasonLeeeeeeeeee/article/details/81106558

版权

本文介绍了无监督学习中的聚类算法，包括k-means、层次聚类和DBSCAN。k-means简单高效但易受初始点选择影响；层次聚类形成树状结构，适合小规模数据；DBSCAN能处理不规则形状聚类，对异常点不敏感。三种算法各有优缺点，适用于不同场景。

摘要由CSDN通过智能技术生成

本博客为博主查阅大量资料后整理原创，虽水仍不易，如需转载，请附上本文链接https://blog.csdn.net/JasonLeeeeeeeeee/article/details/81106558，谢谢
本文若有不足之处可以交流沟通，互相学习

1. 聚类简介

在机器学习中，分为监督学习、无监督学习和半监督学习。前一篇博客中提到的回归和分类都属于监督学习，本文着重探讨无监督学习中的聚类算法。
博主之前看过一些资料，这两天也翻阅了网上的各大博客后，也想总结一下，写一写聚类相关的知识点，对自己所看的知识也算是总结，以后回想也有翻的资料。
聚类算法是数据在没有标签的情况下，但是还是认为数据具有各自族群，不属于同一类，对这些数据进行聚类后，可以总结发现各个类的特点，有助于更深刻理解数据，判断数据的来源；分类算法是有所有数据的标签，然后让机器来学习这些数据中潜在的规律，把这个规律记住，当有新数据来了的时候，可以自动判断该数据属于哪一类。
翻阅了网上各大博客后，好多博客都会说的很全面，例如下图中，涵盖聚类算法的各种方法。
这里写图片描述
个人认为k均值聚类、层次聚类、密度聚类基本可以解决大部分数据聚类问题，这三个也是比较容易理解的方法，下面就对这三个方法进行介绍。

2. k均值聚类（k-means）

k-means算法属于基于划分的聚类方法（Partition-based methods），这种聚类方法的中心思想是认为“族内点的距离都足够近，族间点的距离都是相对较远的”。k-means算法首先要确定k值，即最终所聚簇群个数；然后选取k个点作为中心点，计算其他点到k个点的距离，围绕该聚类方法的中心思想，将所有数据分为k个簇群。对于该方法的各个环节中优化改进的变体算法包括k-medoids、k-modes、k-medians、kernel k-means等算法。算法步骤如下：
（1）从n个向量对象任意选择k个向量作为初始聚类中心；
（2）计算剩余每个对象与这k个中心对象各自的距离；
（3）把这个向量和距离它最近的中心向量对象归为一个类簇中；
（4）重新计算每个簇的平均值，更新为新的簇中心；
（5）重复（2）、（3）、（4）步骤，直到当前均值向量均未更新。

优点：对于大型数据集也是简单高效、时间复杂度、空间复杂度低。
缺点：最重要是数据集大时结果容易局部最优；需要预先设定K值，对最先的K个点选取很敏感；对噪声和离群值非常敏感ÿ