《机器学习》 DBSCAN算法原理、参数解析、案例实现

菜就多练_0828

于 2024-08-28 15:01:34 发布

阅读量510

点赞数 10

分类专栏：《机器学习》人工智能篇文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qq_64603703/article/details/141636229

版权

《机器学习》人工智能篇专栏收录该内容

18 篇文章 0 订阅

订阅专栏

2）min_samples：样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值

3）metric：最近邻距离度量参数

4）algorithm：最近邻搜索算法参数

一、先看案例

1、对K-mean算法

有一堆数据点，用K-mean聚类去分类，最终得到以下图形，其中小点点为数据点

按照肉眼去观察可以知道外围一圈为一个类别，中间的一团一团为另外的一个个类别，但是K-mean无法这么分类，此时就可以使用DBSCAN来分类

1）优点：

简单、快捷、适合常规

2）缺点：

k值难以确定、很难发现任意形状的簇

2、使用DBSCAN去分类

此时可以得到以下分类状态

二、DBSCAN算法

1、什么是DBSCAN

DBSCAN是一种密度聚类算法，用于发现数据集中的有意义的聚类和异常点。与传统的基于距离的聚类算法（如K-means）不同，DBSCAN是基于密度的带噪声的空间聚类应用算法，它是将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并在噪声的空间数据集中发现任意形状的聚类

DBSCAN算法将样本点分为三类：核心对象、边界对象和噪声点。

核心对象是指样本点周围密度达到一定阈值的点

边界对象是指与核心对象相邻但密度不足以成为核心对象的点

噪声点是指既不是核心对象也不是边界对象的点。

例如下图：

2、实现过程

输入数据集 -> 指定半径 -> 指定密度阈值(半径范围内有制定个数以上的数据个数)

有上述几个数据点，随机以A为核心对象，给定半径范围内，有3个数据点，首先第一个圈包围了A，其内有四个数据点，额外的三个点叫直接密度可达，这满足要求，继续分别对每个点进行划定上述范围及密度阈值，最终画到B点和C点，此时B点和C点指定范围内没有要求个数的点，所以不再继续扩散，那么B、C点就叫边界点，同一个簇内，除了直接密度可达点外，其余的叫密度可达点，而外面有一个划分不到的点N，叫离群点

三、参数解析

1、用法

class sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’, metric_params=None, algorithm=’auto’, leaf_size=30, p=None, n_jobs=None)

2、参数

1）eps：邻域的距离阈值

默认值是0.5，一般需要通过在多组值里面选择一个合适的阈值。eps过大，则更多的点会落在核心对象的ϵϵ-邻域，此时我们的类别数可能会减少，本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大，本来是一类的样本却被划分开。

2）min_samples：样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值

默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下，min_samples过大，则核心对象会过少，此时簇内部分本来是一类的样本可能会被标为噪音点，类别数也会变多。反之min_samples过小的话，则会产生大量的核心对象，可能会导致类别数过少。

3）metric：最近邻距离度量参数

可以使用的距离度量较多，一般来说DBSCAN使用默认的欧式距离（即p=2的闵可夫斯基距离）就可以满足我们的需求。可以使用的距离度量参数有：

a) 欧式距离 “euclidean”:

b) 曼哈顿距离 “manhattan”

c) 切比雪夫距离“chebyshev”