密度聚类算法（三）

最新推荐文章于 2024-08-28 19:41:51 发布

多线程

最新推荐文章于 2024-08-28 19:41:51 发布

阅读量2k

点赞数 3

分类专栏：机器学习&&数据挖掘&&推荐系统文章标签：聚类学习

本文链接：https://blog.csdn.net/WOJIAOSUSU/article/details/57416635

版权

机器学习&&数据挖掘&&推荐系统专栏收录该内容

37 篇文章 14 订阅

订阅专栏

OPTICS算法

尽管DBSCAN算法能够给定的输入参数r(邻域的最大半径)和MinPts(核心对象的最小数量)聚类对象，但是参数任务留给了用户。参数的设置通常依靠经验，难以确定。大多数算法对参数的设置都比较敏感，设置的不同可能导致很大差别的聚类效果。

基于密度的簇关于邻域阈值是单调的。即在DBSCAN中，对于固定的MinPts值和两个邻域r1<r2，关于r1的簇C一定是关于r2的簇C’的子集。意味着，如果两个对象在同一个基于密度的簇中，则他们一定也在同一个具有较低密度的簇中。

上面这一段话可能觉得不好理解，其实意思就是说DBSCAN算法使用的参数都是全局参数，即r（邻域半径）和MinPts（最少数量）设定了之后，全局都是基于同一个密度在进行聚类。直接上图，看了图就明白DBSCAN的缺陷了。

（1）不同的密度。在上图中，如果按照不同的密度，而不是在同一个基于密度的簇中，那么A,B,C三个簇都可以识别出来。

（2）最大的密度。如果按照相同的密度，如果按照最大的密度，即簇C的密度，那么只能识别出簇C，A,B可能作为噪声点而被处理了。

（3）最小的密度。如果按照最小的密度，即A,B的密度，那么所有A,B,C所有的点都在同一个簇中，聚类效果很差。

从上可以发现，DBSCAN使用全局参数聚类效果不是很好，尤其是高维数据集，数据倾斜可能比较严重。为了克服全局参数这一缺点，引入了OPTICS聚类算法。OPTICS并不显式地产生聚类簇，而是输出点排序。这个排序是所有分析对象的线性表（按照距离的远近），并且代表了数据的基于密度的聚类结构。OPTICS聚类算法不需要用户提供特定的密度阈值。簇排序可以用来提取基本的聚类信息，导出内在的聚类结构。

基本概念：

（1）核心距离：对象P的核心距离是最小的ξ’值，即使得对象P的ξ’-邻域内至少有MinPts个对象，即ξ’是使得P成为核心对象的最小半径阈值。如果P不是关于关于ξ和MinPts的核心对象，那么P的核心距离没有定义。（注意此处ξ’和ξ的联系）如下图所示我们设置的MinPts=5,那么在ξ’=4的时候就满足了，那么核心距离就是4，感觉我们全局设置的参数ξ=8没有意义？其实ξ只是起一个约束作用。

（2）可达距离：从对象q到对象p的可达距离是使p从q密度可达的最小半径值。q必须是核心对象，并且p必须在q的邻域内。从q到p的可达距离max{core_distance(q),dist(p,q)}。如果q不是核心对象，那么可达距离没有意义。

看了这两个概念，可能会觉得有点晕，其实很简单。

核心距离是某个对象满足在<=ξ的某个范围内，有MinPts个邻域点。

可达距离是核心对象（必须要有核心对象）与其邻域点的距离（邻域为ξ范围，不是ξ’范围）。

OPTICS算法思想如下所示：

输入：数据样本D，初始化所有点的可达距离和核心距离为MAX，半径 ε ，和最少点数 MinPts 。
1、建立两个队列，有序队列（核心点及该核心点的直接密度可达点），结果队列（存储样本输出及处理次序）
2、如果D中数据全部处理完，则算法结束，否则从D中选择一个未处理且未核心对象的点，将该核心点放入结果队列，该核心点的直接密度可达点放入有序队列，直接密度可达点并按可达距离升序排列；
3、如果有序序列为空，则回到步骤2，否则从有序队列中取出第一个点；
3.1 判断该点是否为核心点，不是则回到步骤3，是的话则将该点存入结果队列，如果该点不在结果队列；
3.2 该点是核心点的话，找到其所有直接密度可达点，并将这些点放入有序队列，且将有序队列中的点按照可达距离重新排序，如果该点已经在有序队列中且新的可达距离较小，则更新该点的可达距离。
3.3 重复步骤3，直至有序队列为空。
4、算法结束。