【论文解读】Clustering with local density peaks-based minimum spanning tree.2019. IEEE TKDE.

本文链接：https://blog.csdn.net/the_ZED/article/details/143213130

Clustering with local density peaks-based minimum spanning tree.

基于最小生成树的局部密度峰值聚类

Ⅰ、Abstract

聚类分析在统计学、机器学习、模式识别、图像处理等领域得到了广泛的应用。对于大多数现有的聚类算法来说，发现任意形状的聚类都是一个巨大的挑战。基于最小生成树（MST）的聚类算法能够发现具有任意形状的聚类，但它们耗时且容易受到噪声点的影响。在本文中，作者使用局部密度峰值（LDP）来表示整个数据集，并定义了一个基于共享邻居的局部密度峰值之间的距离，以更好地衡量流形数据上对象之间的相异性。基于局部密度峰值和新的距离，提出了一种新的基于 MST 的聚类算法，称为 LDP-MST。它首先使用局部密度峰值构建 MST，然后重复切割最长边，直到找到给定数量的簇。

Ⅱ、MST-Based Clustering Algorithms

给定一个连通的无向图，最小生成树（MST）是一个子图，它用最小的边权重和连接所有顶点，并且没有任何循环。传统的基于 MST 的聚类算法首先使用 Prim 算法或 Kruskal 算法按距离度量构建 MST，然后不断去除一部分边，从而得到一组连通分量（簇），直到满足给定条件。

基于最小生成树对边进行切割从而完成聚类

理想情况下，各簇会被很好地分离，最终保留的是一些较短边。但由于噪声点的存在，往往会存在一些边虽然较短，但实际上连接了两个不同簇。因此，如何定义裁剪准则和最终的给定条件是基于 MST 的聚类算法必须解决的两个主要问题。

Ⅲ、NATURAL NEIGHBOR

自然邻居¹是一种新的邻居概念。它已被用于聚类分析、离群点检测和原型约简，在数据挖掘方面表现出非常好的性能。它认为，如果一个数据对象 $x$ 将 $y$ 视为其邻居，同时 $y$ 也将 $x$ 视为自己的邻居，则对象 $y$ 是对象 $x$ 的自然邻居之一。

若令 $D$ 表示数据集， $d (x, y)$ 为点 $x$ 与点 $y$ 之间的距离，点 $o$ 为点 $p$ 的第 $k$ 个近邻。则可以给出 $k$ 近邻和逆 $k$ 近邻的定义:

定义 1： $k$ 近邻。点 $p$ 的 $k$ 近邻是满足以下条件的点的集合： $NN_k(p)=\{x\in D \mid d(p,x) \leq d(p,o)\}$ 。

定义 2：逆 $k$ 近邻。点 $p$ 的逆 $k$ 近邻是满足以下条件的点的集合： $RNN_k(p)=\{x\in D \mid p \in NN_k(x)\}$ 。

自然邻居的形成如下：不断扩大邻居搜索范围 $r$ ，在每次迭代中计算每个点 $p$ 的逆近邻 $n p (p)$ 的个数，直到没有反向邻居的点的个数不变。此时的邻居搜索范围 $r$ 称为自然特征值。自然特征值的正式定义如下:

定义 3：自然特征值 $\lambda$ 。从1开始不断扩大搜索各点的逆近邻范围 $r$ ，一旦在某次迭代中，没有逆近邻的样本个数不变时，此时的搜索范围 $r$ 即为当前数据集的自然特征值。

搜索自然邻居的算法如下：

NaN-Searching

Ⅳ、LDP-MST

现有的基于 MST 的聚类算法在整个数据集上构建 MST，并利用树中包含的边信息对数据集进行划分。因此，它们的计算成本很高，而且容易受到噪声点的影响。基于此，作者提出了一种基于局部密度峰值的最小生成树（LDP-MST）聚类算法。以图 1 所示的简单数据集为例，LDP-MST 的主要思想如下：首先，在其相邻点中选取局部密度最大的点作为局部密度峰，其余点分配到相应的局部密度峰，如图 1(a) 所示。然后，定义了一个新的局部密度峰之间的距离，该距离综合考虑了欧几里得距离和样本之间的近邻信息。作者使用局部密度峰和新距离来构建 MST，如图 1(b) 所示。这之后，将根据新的距离不断去除最长的边，直到获得所需的簇数。图 1(c ) 中显示的黄色边是作者从 MST 中移除的边，数字表示边被切断的顺序。最后得到聚类结果如图 1(d) 所示。由于只在局部密度峰上构造 MST，减少了噪声点的干扰，大大提高了算法的效率。

Fig.1