Scalable Graph-Based Clustering With Nonnegative Relaxation for Large Hyperspectral Image

Scalable Graph-Based Clustering With Nonnegative Relaxation for Large Hyperspectral Image

基于非负松弛可缩放图的大型高光谱图像聚类

摘要

大多数基于图的聚类模型不适合处理大型高光谱图像,主要是由于计算机瓶颈:

  • 相似矩阵w的构造
  • 图拉普拉斯矩阵L的特征值分解
  • k-means或其他离散化过程

scalable graph-based clustering with nonnegative relaxation(SGCNR), 首先构造锚图,然后添加非负松弛项直接提取聚类指标。传统基于图的聚类算法至少需要 O ( n 2 d + n 2 k ) O(n^2d+n^2k) O(n2d+n2k) O ( n 2 d + n 3 ) O(n^2d+n^3) O(n2d+n3),采用此算法可降低到 O ( n d l o g m + n K 2 + n K c + k 3 ) O(ndlogm+nK^2+nKc+k^3) O(ndlogm+nK2+nKc+k3),其中r n、d、m、K和c分别是样本数、特征数、锚、类和最近邻。

此外,此算法可以直接获得聚类指标。

介绍

高光谱图像广泛应用于许多遥感应用,如精准农业、矿物勘探、灾害检测等等。

聚类是HSI处理中常用的一种基本技术。

HSI聚类的目的是将给定图像划分为多个组,使同一组中的像素尽可能相似,而分配给不同组的像素则不同

由于地物分布的内在复杂性以及较大的光谱可变性和复杂的空间结构,聚类一直是HSI处理中最具挑战性的任务之一。

现有的hsi聚类算法,大致为四类:

  1. 基于质心

    例如:k-means算法、fuzzy c-means (FCM) 等,容易陷入局部最优

  2. 基于密度

    例如基于密度的带噪声空间聚类算法(DBSCAN)和通过快速搜索和发现密度峰值进行聚类等,处理属于高维数据的HSI方面存在局限性。高维数据的特征空间通常是稀疏的,难以区分高密度区域和低密度区域。

  3. 基于生物

    如遥感无监督人工免疫网络,基于自适应多目标差分进化的自动模糊聚类方法等,然而,由于生物模型并不总是符合HSI的特征,这些算法不能始终获得满意的聚类结果。

  4. 基于图形

    如谱聚类(SC)[23]、比率切割[24]、归一化切割[25]、SC聚类(SCC)[26]和稀疏子空间聚类,遵循相同的方案:首先,它计算建模数据点对之间相似性的权重,并生成相似矩阵。其次,计算相应图拉普拉斯矩阵L的K个特征向量。最后,需要k-均值或其他离散化程序来揭示聚类指标。

本文重点研究一系列基于图的聚类算法。传统的基于图形的聚类算法通常不是大型HSI聚类问题的首选,因为现代HSI数据集在构造相似矩阵W和计算相应图拉普拉斯矩阵L的K特征向量方面在计算和内存消耗方面都面临巨大挑战。

本文的贡献:

  1. 将正交约束与非负松弛相结合,建立了一种新的基于图的聚类模型。在这种情况下,我们提出了一种简单有效的算法,通过使用增广拉格朗日乘子(ALM)方法来求解我们的目标函数。
  2. 我们提出使用锚图模型来加快相似矩阵W的构造和后续优化。我们提出使用锚图模型来加快相似矩阵W的构造和后续优化。该模型的总体复杂性降低到O(nd-log m+nK 2+nK c+K3),其中m和c是锚和最近邻居的数量。特别是,对于大型HSI,n>>m、 n>>d、 还有n>>K,该模型大大降低了计算复杂性。此外,相似矩阵作为变量进行优化,从而获得更可靠的相似矩阵,从而提高最终聚类性能
  3. 通过非负松弛,我们可以直接获得聚类指标,而无需像传统的基于图的聚类算法那样使用k-means或其他离散化过程。

前期工作简要回顾

X = [ x 1 , … , x n ] T X = [x_1,\dots,x_n]^T X=[x1,,xn]T表示数据矩阵

G = ( V , ϵ , W ) G=(V,\epsilon,W) G=(V,ϵ,W)表示加权无向图。 ϵ \epsilon ϵ表示边集,每条边表示的是顶点间的相似联系。W是相似矩阵,对称的。 W ∈ R n × n , L = D − W , L ∈ R n × n W \in \mathbb{R}^{n \times n},L=D-W,L \in \mathbb{R}^{n \times n} WRn×n,L=DW,LRn×n,D是对角矩阵,每个元素是W对应的行和。归一化的拉普拉斯矩阵: L = I − D − 1 / 2 W D − 1 / 2 L=I-D^{-1/2}WD^{-1/2} L=ID1/2WD1/2

Ratio Cut[24]和Normalized Cut[25]分别最小化目标函数:

在这里插入图片描述

K是聚类数量

两者目标函数的式子相同:

在这里插入图片描述

L \mathcal{L} L在RationCut中是图的拉普拉斯矩阵L,在NormalCut中是归一化的拉普拉斯矩阵 L ~ \tilde{L} L~

注意,F的元素被限制为离散值,这使得这个问题很难解决。这个问题的一个著名解决方案是将矩阵F从离散值松弛为连续值,同时保留正交约束FT F=I。(5)的最优解F由对应于K个最小特征值的L的K个特征向量构成。由于F现在是松弛的连续形式,并且有混合符号,因此我们必须求助于其他离散化过程,如k-means,以获得最终的聚类结果。

两者的限制:计算复杂度高、需要借助其他离散化方法。

具有非负松弛的基于可缩放图的聚类

锚图构造

过程和FSCAG一样:

在这里插入图片描述

学习到的Z是自然c稀疏的,可以大大减轻后续优化的计算负担。

基于非负松弛的可缩放图聚类

为了解决问题(5),传统方法将矩阵F从离散值松弛为连续值,并使其满足正交约束FT F=I。对于第二个限制,我们需要考虑更精确的松弛。注意,矩阵F是非负矩阵,更精确的松弛是在矩阵F上添加非负约束。

在这里插入图片描述

  • 定理1:如果矩阵F满足正交约束FT F=I和非负约束F≥ 0秒是同时的。对于F的每一行,只有一个元素为正,其他元素为零,因此F非常接近理想的聚类指标矩阵。

证明:设fi为矩阵F的第i列,F j(j != i)表示F的任何列。从正交约束FT F=i,我们知道:

在这里插入图片描述

行或列两两正交。

对于F≥ 0,fi和fj的每个元素都是非负的。因此,对于每个r,fri fr j=0。假设fi的第r个元素为正。f j的对应rth元素必须为0。(这样每行就只有一个为正)

从定理1,我们得出结论,如果F同时满足正交约束和非负约束,则得到的F可以直接用于为数据点指定簇标签。因此,我们将正交约束与非负松弛相结合,构建一个称为SGCNR的模型,如下所示:

在这里插入图片描述

W = B B T , L = I − B B T W=BB^T,L=I-BB^T W=BBT,L=IBBT 使用ALM方法来求解

ALM方法简要介绍,考虑约束优化问题:

在这里插入图片描述

算法1描述了使用ALM方法求解问题(17)的算法。已经证明,在一些相当一般的条件下,算法1 Q线性收敛到最优解。此属性使ALM方法非常有吸引力。

在这里插入图片描述

问题16可以写作:
在这里插入图片描述

根据算法1,有:
在这里插入图片描述

我们可以通过替代优化方法来解决问题(19)。

第一步是固定G并求解F。然后,问题(19)变成
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

问题20简化为一下问题:

在这里插入图片描述

对M进行奇异值分解, M = U Λ V T , U ∈ R n × n , Λ ∈ R n × K , U ∈ R K × K M=U\Lambda V^T,U \in \mathbb{R}^{n \times n},\Lambda \in \mathbb{R}^{n \times K},U \in \mathbb{R}^{K \times K} M=UΛVT,URn×n,ΛRn×K,URK×K

在这里插入图片描述

在这里插入图片描述

Φ Φ T = I K , \Phi \Phi^T = I_K, ΦΦT=IK 所以 − 1 ≤ Φ ≤ 1 -1 \leq \Phi \leq 1 1Φ1, λ \lambda λ是奇异值,所以 λ ≥ 0 \lambda \geq 0 λ0,因此 T r ( F T M ) = ∑ i λ i i Φ i i ≥ − λ i i Tr(F^TM) = \sum_i \lambda_{ii} \Phi_{ii} \geq - \lambda_{ii} Tr(FTM)=iλiiΦiiλii,当 Φ i i = − 1 ( 1 ≤ i ≤ K ) \Phi_{ii} =-1(1 \leq i \leq K) Φii=1(1iK) 时等式成立。那就是说,当 Φ = [ − I K , 0 ] \Phi = [-I_K,0] Φ=[IK,0]时, T r ( F T M ) Tr(F^TM) Tr(FTM)达到最小值,问题21的最优解:

在这里插入图片描述

**第二步是固定F,求解G:**问题19变成:

在这里插入图片描述
在这里插入图片描述

问题24可被写作以下形式:
求解时H应该是常数,给上式加上常数 T r ( H T H ) Tr(H^TH) Tr(HTH) 构造

在这里插入图片描述

注意,上述问题独立于不同元素Gij,因此,我们可以针对每个元素Gij分别解决以下问题:

在这里插入图片描述

如果Hij≥ 0,Gij的最优解等于Hij。

如果Hij<0,Gij的最优解等于0。

如前所述,解决方案G非常接近理想的类指示符矩阵,可以直接用于将簇标签分配给数据点。具体来说,第i个数据点xi被分配给簇标签li,作为 l k = m a x k G i k l_k=max_kG_{ik} lkmaxkGik

基于算法1中的ALM方法,算法2中详细描述了我们的SGCNR算法。

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值