【聚类】篇四之理解密度聚类算法DBSCAN

最新推荐文章于 2024-07-19 16:20:14 发布

Laurel1115

最新推荐文章于 2024-07-19 16:20:14 发布

阅读量1.4k

点赞数 2

分类专栏：数据挖掘/机器学习算法原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laurel1115/article/details/88533889

版权

DBSCAN是一种基于密度的聚类算法，适用于发现任意形状的簇。它通过核心对象、密度直达和密度可达关系确定簇，对异常点不敏感，但参数调整较为复杂。在密度不均匀的数据集上可能表现不佳。

摘要由CSDN通过智能技术生成

篇四之理解密度聚类算法DBSCAN

一、密度聚类概述
二、DBSCAN聚类
参考

一、密度聚类概述

密度聚类假设聚类结构能通过样本的紧密程度确定，同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。从样本密度出发考虑样本间的可连接性，然后基于可连接样本不断扩展聚类的簇实现聚类的目的。基于原型（划分）和层次的聚类方法一般只能发现球状的簇，很难去发现任意形状的簇，为了发现任意形状的簇，我们可以把簇看成是数据空间中被稀疏区域划分开的稠密区域。那么如何在基于密度的聚类中发现稠密区域呢？原则是一个对象的密度可以用靠近它的对象的数量来表示。

二、DBSCAN聚类

（一）、基础概念

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。
DBSCAN的核心在于确定某个对象的邻域，参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度，其中，ϵ描述了某一样本xj的邻域距离阈值,即样本集D中与xj距离不大于ϵ的样本，即：
在这里插入图片描述
MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。
首先，先明确两个概念：
1） ϵ-邻

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。