四种常用聚类及代码（四）：DBSCAN

最新推荐文章于 2022-10-08 17:50:57 发布

水煮洋洋洋

最新推荐文章于 2022-10-08 17:50:57 发布

阅读量2.5k

点赞数 1

分类专栏： nlp 机器学习文章标签：聚类 dbscan nlp 机器学习

本文链接：https://blog.csdn.net/weixin_43526820/article/details/89852512

版权

DBSCAN(Density-Based Spatial Clustering of Applications with Noise）

1、什么是密度聚类
2、一些基本概念
3、DBSCAN聚类算法
4、DBSCAN参数
5、优缺点
python实现

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。
该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。
算法的目标：
相比基于划分的聚类方法和层次聚类方法，需要更少的领域知识来确定输入参数；
发现任意形状的聚簇；
在大规模数据库上更好的效率。

1、什么是密度聚类

密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。

通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

2、一些基本概念

DBSCAN是基于一组邻域来描述样本集的紧密程度的，参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中，ϵ描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。

假设我的样本集是 $D=(x_1,x_2,...,x_m)$ ,则DBSCAN具体的密度描述定义如下：

ϵ-邻域：对于x_j∈D，其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集，即Nϵ(x_j)={x_i∈D|distance(x_i,x_j)≤ϵ}, 这个子样本集的个数记为|Nϵ(x_j)|

核心对象:对于任一样本x_j∈D，如果其ϵ-邻域对应的Nϵ(x_j)至少包含MinPts个样本，即如果|Nϵ(x_j)|≥MinPts，则x_j是核心对象。　
边界点：设 $\epsilon D$ ，且x落在某个核心点的 $\epsilon$ 邻域内。一个边界点可能落在多个核心点的 $\epsilon$ 邻域内。

密度直达：如果 $x_i位于x_j$ 的ϵ-邻域中，且 $x_j$ 是核心对象，则称 $x_i由x_j$

最低0.47元/天解锁文章

水煮洋洋洋

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
四种常用聚类及代码（四）：DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise）1、什么是密度聚类2、一些基本概念3、DBSCAN聚类算法4、DBSCAN参数5、优缺点python实现DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方...
复制链接

扫一扫