基于密度的DBSCAN聚类及其优化的OPTICS聚类(一)

DBSCAN聚类算法:可以生成形状多样的类,并且可以检测出异常值和噪声点。但是对于输入参数敏感,如何提高DBSCAN聚类结果的准确性和可信度,是一个值得研究的趋势和方向。

OPTICS聚类算法:该算法定义了可达距离,其思想和DBSCAN算法一致,通过最小可达距离来刻画出一个样本点连接到一个类别的最小路线。但是OPTICS算法不是直接生成聚成几个类的结果,而是通过生成增广的类排序来生成一个可达距离图。通过该图可以得到一个广泛的距离阈值,可以克服DBSCAN聚类算法所运用的全局参数带来的缺陷。

1、DBSCAN聚类算法

介绍此算法将用一个核心思想,两个算法参数和三种点的类别来介绍。

一个核心思想

DBSCAN聚类算法的核心思想是用一个点的领域范围内存在着的邻居点数目以精确衡量得出该点所在的领域的密度。DBSCAN算法几乎都可以直接的找到样本点及其附近的全部的密集的区域,这些一个个密集的区域就是我们需要求得的一个个的聚类簇。

 

两种算法参数:

DBSCAN算法中有两个算法参数。前者为距离阈值\varepsilon,后者为密度阈值MinPts

 

三种点的类别:

领域半径内样本点数量大于阂值的点则称其为核心点不是一个核心点但在一个核心点的领域内点叫做边界点既不是核心点又不是边界点的是噪声点属于干扰数据集的点。、

 

 

2、DBSCAN算法的优点:

  1. 可以生成灵活多变的不规则形状的聚类。因为其基于密度的特性,相比于基于距离只能生成球状簇的聚类算法如k-means、层次聚类,它的聚类结果都是灵活多变的不规则簇。

  2. 噪声点和离群点对于聚类结果影响非常微小。一般说,噪声点越多,聚类结果越容易有误差,噪声点越少,聚类结果越准确。但此类算法可以检测出噪声点,无论异常值是多还是少影响都比较小。

  3. 聚类结果不会有丝毫的偏移。k-means聚类算法都是人为地选择初始样本点,所以聚类完成会落入局部最优,聚类结果会产生偏移。但是DBSCAN聚类算法因其算法特性,聚类结果完全不会有丝毫的改变。

  4. 对于数据库中样本的数据顺序不敏感。随机给定数据顺序都不会影响聚类效果。

DBSCAN算法的缺点:

  1.  采用全局性表征密度参数。 对于高密度簇的核心点,在较小的领域内就可以至少有个点;对于低密度簇的核心点,在较大的领域内才可以有个点。所以该算法对于初始距离参数的选取要求很高。

  2.  不能很好地反映高维数据。样本集较大时,聚类时间较长。

  3.  对于初始参数敏感。调试算法的阈值参数组如果比较复杂一些时,主要特点就是有时需要考虑分别地对距离阈值、密度阈值进行另外一些的联合调参。不同的阈值组的阈值参数值的组合形式往往是对调试最后的算法结果的聚类质量和算法效果往往会都有着一些的较大的影响。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
k均值、DBSCANOPTICS都是基于密度聚类算法。 首先,k均值算法是一种基于密度聚类算法。它将数据点划分为k个簇,每个簇中的数据点与该簇中心的距离最小。该算法首先随机选择k个初始聚类中心,然后迭代计算每个数据点距离各个聚类中心的距离,并将其归类为距离最近的簇。然后,更新每个簇的中心,并重复以上步骤,直到聚类中心不再变化。 其次,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是另一种基于密度聚类算法。该算法通过将数据点视为具有噪声和核心点的集合来构建聚类结果。核心点是指在指定半径范围内具有足够数量的数据点的中心,而噪声点是离核心点距离过大的孤立数据点。DBSCAN通过计算每个数据点周围其他数据点的密度来确定核心点和噪声点,并将相邻的核心点连接起来形成聚类。该算法的优势在于可以找出任意形状的聚类。 最后,OPTICS(Ordering Points To Identify the Clustering Structure)也是一种基于密度聚类算法。它与DBSCAN类似,但不需要预先指定半径范围。OPTICS通过计算每个数据点的核心距离和可达距离来度量数据点的密度。核心距离是在指定最小密度阈值下,数据点必须具有的最小邻居数目。可达距离是从核心点到某个数据点的最小距离。OPTICS通过将数据点按照可达距离进行排序,然后搜索和扫描可达距离小于指定阈值的数据点来形成聚类。 综上所述,k均值、DBSCANOPTICS都是基于密度聚类算法,它们通过考虑数据点之间的密度信息来实现聚类

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值