dbscan算法中 参数的意义_通俗易懂的机器学习聚类算法

DBSCAN是一种无监督机器学习聚类算法,能够发现任意形状的簇,尤其擅长寻找离群点。算法核心在于核心对象、密度可达和密度相连的概念,依赖两个参数:半径ϵ和最小点数MinPts。虽然参数选择较为关键,但相比k-means,DBSCAN不需要预先指定簇的数量。然而,高维数据处理和参数选择是其挑战。在实际应用中,可以通过K距离来辅助设定半径ϵ。
摘要由CSDN通过智能技术生成

聚类本质上是一个无监督问题即我们手里没有标签了,还有将数据进行分类。

聚类:相似的东西分到一组

难点:如何评估,如何调参 。

下图是将一个无标签的数据集分成​三类。

0bd9fe4f643b5d08a365d529c6f0884b.png
05c70d933e2926d46fa209a2c7da0383.png

要得到簇的个数,需要指定K值 ,当然它需要先获得质心。质心就是所谓均值,即向量各维取平均即可

距离的度量:常用欧几里得距离和余弦相似度(先标准化)

216af2562ed35590e61c898c9eb43721.png
3b7c6b32a847921cdbbf16496ff5463d.png

k-means算法得优势是简单,快速,适合常规数据集

但其劣势是:

K值难确定 ,因为一上来你不知道要将数据分成几类。

复杂度与样本呈线性关系

很难发现任意形状的簇

8c1d1be512b30abd9ce3c0b64afae23a.png

核心对象:若某个点的密度达到算法设定的阈值则其为核心点。

(即 r 邻域内点的数量不小于 minPts)

ϵ-邻域的距离阈值:设定的半径r

下面来说几个DBSCAN算法中的几个概念​。

直接密度可达:若某点p在点q的 r 邻域内,且q是核心点,则p-q直接密度可达。

密度可达:若有一个点的序列q0、 q1、 …qk,对任意qi-qi-1是直接密度可达的, 则称从q0到qk密度可达,这实际上是直接密度可达的“传播”。

密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的。

边界点:属于某一个类的非核心点,不能发展下线了 ,类似于传销的性质。

噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的

2e1698f892fc54a7b7d3495a8d02034b.png
92f8afb5ddf747c7a13f14213a454e47.png

半径ϵ,可以根据K距离来设定:找突变点

K距离:给定数据集P={p(i); i=0,1,…n},计算点P(i)到集合D的子集S中所有点

之间的距离, 距离按照从小到大的顺序排序, d(k)就被称为k-距离。

MinPts:k-距离中k的值,一般取的小一些,多次尝试

优势:

可以发现任意形状的簇

擅长找到离群点(检测任务)

两个参数就够了

劣势:

高维数据有些困难(可以做降维)

参数难以选择(参数对结果的影响非常大)

Sklearn中效率很慢(数据削减策略)

下面是几个通过DBSCAN算法进行​聚类的结果。​

a876ff3c28259a44059577d3f55449b5.png
0308cf4112077da603924e021ce5f864.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值