聚类算法详解

最新推荐文章于 2024-08-21 00:15:00 发布

算法程序猿

最新推荐文章于 2024-08-21 00:15:00 发布

阅读量371

点赞数

文章标签：聚类算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47533197/article/details/129548681

版权

无监督

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”

一、K-MEANS算法

工作流程
1.首先, 随机确定 K 个初始点作为质心（不必是数据中的点)。

2.然后将数据集中的每个点分配到一个簇中, 具体来讲, 就是为每个点找到距其最近的质心, 并将其分配该质心所对应的簇

3.每个簇的质心更新为该簇所有点的平均值.
4.重复上述过程直到数据集中的所有点都距离它所对应的质心最近时结束。

优点:

属于无监督学习，无须准备训练集
原理简单，实现起来较为容易
结果可解释性较好

缺点:

需手动设置k值。在算法开始预测之前，我们需要手动设置k值，即估计数据大概的类别个数，不合理的k值会使结果缺乏解释性
可能收敛到局部最小值, 在大规模数据集上收敛较慢
对于异常点、离群点敏感

二、DBSCAN算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。

该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

给定数据集D，以下概念：

DBSCAN算法的描述如下。

输入：数据集，邻域半径 Eps，邻域中数据对象数目阈值 MinPts;
输出：密度联通簇。
处理流程如下。

①从数据集中任意选取一个数据对象点 p；

②如果对于参数 Eps 和 MinPts，所选取的数据对象点 p 为核心点，则找出所有从 p 密度可达的数据对象点，形成一个簇；

③如果选取的数据对象点 p 是边缘点，选取另一个数据对象点；

④重复②、③步，直到所有点被处理。

DBSCAN 算法的计算复杂的度为 O(n²)，n 为数据对象的数目。这种算法对于输入参数 Eps 和 MinPts 是敏感的

算法程序猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。