【论文解读】Clustering with local density peaks-based minimum spanning tree.2019. IEEE TKDE.

Clustering with local density peaks-based minimum spanning tree.

基于最小生成树的局部密度峰值聚类




Cover

Ⅰ、Abstract


聚类分析在统计学、机器学习、模式识别、图像处理等领域得到了广泛的应用。对于大多数现有的聚类算法来说,发现任意形状的聚类都是一个巨大的挑战。基于最小生成树(MST)的聚类算法能够发现具有任意形状的聚类,但它们耗时且容易受到噪声点的影响。在本文中,作者使用局部密度峰值(LDP)来表示整个数据集,并定义了一个基于共享邻居的局部密度峰值之间的距离,以更好地衡量流形数据上对象之间的相异性。基于局部密度峰值和新的距离,提出了一种新的基于 MST 的聚类算法,称为 LDP-MST。它首先使用局部密度峰值构建 MST,然后重复切割最长边,直到找到给定数量的簇。


Ⅱ、MST-Based Clustering Algorithms


给定一个连通的无向图,最小生成树(MST)是一个子图,它用最小的边权重和连接所有顶点,并且没有任何循环。传统的基于 MST 的聚类算法首先使用 Prim 算法或 Kruskal 算法按距离度量构建 MST,然后不断去除一部分边,从而得到一组连通分量(簇),直到满足给定条件。

基于最小生成树对边进行切割从而完成聚类

理想情况下,各簇会被很好地分离,最终保留的是一些较短边。但由于噪声点的存在,往往会存在一些边虽然较短,但实际上连接了两个不同簇。因此,如何定义裁剪准则和最终的给定条件是基于 MST 的聚类算法必须解决的两个主要问题。


Ⅲ、NATURAL NEIGHBOR


自然邻居1是一种新的邻居概念。它已被用于聚类分析、离群点检测和原型约简,在数据挖掘方面表现出非常好的性能。它认为,如果一个数据对象 x x x y y y 视为其邻居,同时 y y y 也将 x x x 视为自己的邻居,则对象 y y y 是对象 x x x 的自然邻居之一。

若令 D D D 表示数据集, d ( x , y ) d(x,y) d(x,y) 为点 x x x 与点 y y y 之间的距离,点 o o o 为点 p p p 的第 k k k 个近邻。则可以给出 k k k 近邻和逆 k k k 近邻的定义:

定义 1: k k k 近邻。点 p p p k k k 近邻是满足以下条件的点的集合: N N k ( p ) = { x ∈ D ∣ d ( p , x ) ≤ d ( p , o ) } NN_k(p)=\{x\in D \mid d(p,x) \leq d(p,o)\} NNk(p)={ xDd(p,x)d(p,o)}

定义 2:逆 k k k 近邻。点 p p p 的逆 k k k 近邻是满足以下条件的点的集合: R N N k ( p ) = { x ∈ D ∣ p ∈ N N k ( x ) } RNN_k(p)=\{x\in D \mid p \in NN_k(x)\} RNNk(p)={ xDpNNk(x)}

自然邻居的形成如下:不断扩大邻居搜索范围 r r r,在每次迭代中计算每个点 p p p 的逆近邻 n p ( p ) np(p) np(p) 的个数,直到没有反向邻居的点的个数不变。此时的邻居搜索范围 r r r 称为自然特征值。自然特征值的正式定义如下:

定义 3:自然特征值 λ \lambda λ。从1开始不断扩大搜索各点的逆近邻范围 r r r,一旦在某次迭代中,没有逆近邻的样本个数不变时,此时的搜索范围 r r r 即为当前数据集的自然特征值。

搜索自然邻居的算法如下:

NaN-Searching


Ⅳ、LDP-MST


现有的基于 MST 的聚类算法在整个数据集上构建 MST,并利用树中包含的边信息对数据集进行划分。因此,它们的计算成本很高,而且容易受到噪声点的影响。基于此,作者提出了一种基于局部密度峰值的最小生成树(LDP-MST)聚类算法。以图 1 所示的简单数据集为例,LDP-MST 的主要思想如下:首先,在其相邻点中选取局部密度最大的点作为局部密度峰,其余点分配到相应的局部密度峰,如图 1(a) 所示。然后,定义了一个新的局部密度峰之间的距离,该距离综合考虑了欧几里得距离和样本之间的近邻信息。作者使用局部密度峰和新距离来构建 MST,如图 1(b) 所示。这之后,将根据新的距离不断去除最长的边,直到获得所需的簇数。图 1(c ) 中显示的黄色边是作者从 MST 中移除的边,数字表示边被切断的顺序。最后得到聚类结果如图 1(d) 所示。由于只在局部密度峰上构造 MST,减少了噪声点的干扰,大大提高了算法的效率。

Fig.1

为了找到局部密度峰,我们首先定义点的局部密度。在密集区域中,点与最近的点之间的距离之和通常比在稀疏区域中小。 n b nb nb 值在密集区域较大,在稀疏区域较小。因此,点 p p p 的局部密度与 n b ( p ) nb(p) nb(p) 的值成正比,与点和邻点之间的距离成反比。计算公式如下:

ρ ( p ) = n b ( p ) ∑ q ∈ N N k ( p ) d ( p , q ) \rho(p)=\frac{nb(p)}{\sum_{q\in NN_k(p)}d(p,q)} ρ(p)=q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

theSerein

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值