DBSCAN聚类算法

最新推荐文章于 2024-08-13 22:52:37 发布

congnaahahei

最新推荐文章于 2024-08-13 22:52:37 发布

阅读量5.6k

点赞数 7

分类专栏：机器学习文章标签：聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/congnaahahei/article/details/78887033

版权

DBSCAN算法是对K均值聚类的补充，能识别非球形簇。它将点分为核心点、边界点和噪声点，通过设定的距离阈值Eps将相关点聚类。对比实验显示，DBSCAN能有效处理复杂形状的簇，优于K均值。

摘要由CSDN通过智能技术生成

1、算法引入及简介

为什么要引入DBSCAN？

K均值聚类使用非常广泛，作为古老的聚类方法，它的算法非常简单，而且速度很快。但是其缺点在于它不能识别非球形的簇；而DBSCAN算法是将所有点标记为核心点、边界点或噪声点，将任意两个距离不大于E（eps）的核心点归为同一个簇，任何与核心点足够近的边界点也放到与之相同的簇中，可以发现任意形状的簇类。

人为构造基于sin函数和cos函数构成的两组点数据，分别用K均值与DBSCAN算法聚类，对比如下：

K均值 DBSCAN

可以发现K均值聚类结果是不理想的

DBSCAN定义

DBSCAN(Density-Based Spatial Clustering of Application with Noise)，是一个较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。简单的说就是过滤低密度区域，把扎堆的点（高密度区域）找出来。

2、相关概念

1）密度：任意一点的密度是以该点为圆心、以E为半径的圆区域内包含的点数目。   4
2）Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域。
3）核心对象：如果对象的E邻域样本点数大于等于MinPts（最小样本点数）,则称该对象为核心对象。   a
4）边界点：在以半径为E的邻域内点的数量小于MinPts,但是落在其他核心点的邻域内。    d
5）噪声点：既不是边界点也不是核心点的任意点。   e

6）直接密度可达：对于样本集合D，如果样本点q在p的Ε领域内，并且p为核心对象，那么对象q从对象p直接密度可达（如果p是一个核心对象，q属于p的邻域，q从p直接密度可达）。

最低0.47元/天解锁文章

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。