Fast Fuzzy Clustering Based on Anchor Graph

Fast Fuzzy Clustering Based on Anchor Graph

基于锚图的快速模糊聚类 FFCAG

模糊聚类十分流行;

  1. 大规模问题复杂度高,限制发挥
  2. 对噪声敏感

FFCAG算法将基于锚的相似度图构建和隶属度矩阵学习集成到一个统一的框架中,从而可以进一步利用锚的先验知识来提高聚类性能。

FFCAG首先使用无参数邻域分配策略构造基于锚的相似图。然后,设计了一个二次规划模型来学习锚的隶属度矩阵,这与传统的模糊聚类算法有很大的不同。更重要的是,在目标函数中引入了一个新的平衡正则化项,以产生更精确的聚类结果。

最后,我们采用一种保证收敛的交替优化算法来求解该方法。

聚类方法大致分为两类:硬聚类、模糊聚类(软聚类)

对于硬聚类,每个数据点仅属于一个聚类,概率为100%。而模糊聚类将每个数据点分配给所有聚类,其程度由成员隶属度指定。

模糊聚类由于其有效性和简单性越来越受到研究者的关注。然而,有两个主要问题限制了它在大规模问题中的应用:

  • 模糊聚类的一个主要缺点是在处理大规模问题时耗时。为了加快聚类进程,投入了大量精力。

    一个自然的选择是减小数据大小。另一种方法是寻找更好的初始化来减少迭代次数。

    Shen等人设计了一种超平面划分方法,将整个数据集划分为不相交的子集,并使聚类算法精确地聚焦于一个局部区域,以提高效率和有效性。

  • 模糊聚类的另一个缺点是它的敏感性。

    大多数模糊聚类算法采用欧氏距离来分配隶属度,而噪声对聚类结果有很大影响。

    一些研究人员用适当的正则化项扩展了FCM,以减少异常值的影响并提高其性能

    然而,大多数模糊聚类方法要么只处理耗时问题,要么处理噪声敏感问题。如何在效率和聚类精度之间取得良好的平衡仍然是一个具有挑战性的问题。

受最近基于锚图技术研究的启发,针对大规模问题,我们提出了一种新的模糊聚类算法,称为基于锚图的快速模糊聚类(FFCAG)。

文章贡献:

  1. 提出的FFCAG将基于锚的相似图构建和隶属矩阵学习这两个重要组成部分集成到一个统一的框架中。可以进一步利用锚的先验知识以及数据点和锚之间的局部连通性来提高聚类性能,这对于在有限的计算和存储资源下实现大规模聚类至关重要。
  2. 设计了一个二次规划模型来学习锚的隶属度矩阵。据我们所知,FFCAG首次尝试用二次规划模型处理大规模问题的模糊聚类。此外,我们还开发了一种新的迭代优化算法来解决该问题。
  3. FFCAG引入了一个新的正则化项,以避免空聚类的出现,并使聚类结果更加平衡。这有利于更清晰的聚类结构和更好的聚类性能。
  4. 在合成和真实数据集上进行的大量实验表明,与最先进的算法相比,FFCAG不仅可以获得更好的性能,而且花费更少的时间

相关工作

模糊聚类……

基于锚图的模型……

BKHK生成锚点

方法

动机

……

在这里插入图片描述

基于锚的相似图构造

这里和聂飞平的CAN一样

在这里插入图片描述
在这里插入图片描述

邻居分配中获得的锚图B是稀疏的,并且只考虑每个数据点的前k个最近邻居锚

因此,当j>k+1时,bij被设置为0。它可以看作是数据点和锚之间的图的相似性矩阵。

成员矩阵学习

数据: X ∈ R n × d X \in R^{n \times d} XRn×d 将其分为c类

F = f i j ∈ R n × c F={f_{ij} \in R^{n \times c}} F=fijRn×c fij表示xi属于j类的隶属度

对于大规模数据,直接处理原始数据非常耗时,因此我们转而对锚进行聚类以加快聚类过程

U ∈ R m × c U \in R^{m \times c} URm×c 我们将B的元素bij视为数据点和锚的连接权重,将U的元素uij视为第i个锚属于第j个类的概率。锚的作用可以看作是连接数据点和类的桥梁,然后可以通过属于该类的所有锚的成员值的加权和来计算每个数据点fij的成员值
f i j = b i 1 u 1 j + b i 2 u 2 j + ⋯ + b i m u m j = ∑ l = 1 m b i l u l j f_{ij} = b_{i1}u_{1j}+b_{i2}u_{2j}+\dots+b_{im}u_{mj} = \sum_{l=1}^m b_{il}u_{lj} fij=bi1u1j+bi2u2j++bimumj=l=1mbilulj
因此,数据点的隶属矩阵可以表示为F=BU 模糊聚类允许样本对每个聚类具有一定程度的隶属度,而不是仅对一个聚类具有隶属度

为了获得清晰的聚类分区,每个数据点的隶属度应该变化很大,导致所有元素的平方和也较大。因此,我们通过解决以下问题来获得聚类分配:

在这里插入图片描述

对于目标函数(12),通过使用基于锚的相似性图B来引入数据信息,该相似性图对数据点和锚之间的信息进行编码

然而,问题(12)有平凡解,即所有锚都被分组到一个集群中。为了解决这个问题,我们引入

在这里插入图片描述

问题(13)的最佳解决方案是,所有锚属于具有相同隶属度值1/c的每个簇。我们将(13)视为簇分配中的先验,以避免平凡解。

不正确的初始化可能导致算法收敛到局部最小值或错过一个小簇。为了解决这个问题,设计了一个额外的平衡约束,以使聚类结果更加平衡,定义为:
在这里插入图片描述

下面,我们将给出最小化问题(14)可以获得最平衡聚类结果的证明

……

根据上述定理,最小化(14)可以获得最平衡的聚类结果。因此,我们使用(14)作为平衡正则化项来改善聚类性能。

结合12-14,我们具有清晰聚类结构的新模型是解决:

在这里插入图片描述

总之,(18)中提出的总体模型包含三个术语。目标函数中的第一项提供了锚的基本聚类。第二项可被视为避免平凡解的聚类分配中的先验项。目标函数中的最后一项使聚类结果平衡,以防止将太小或太多的样本分组为一个聚类的歪斜聚类结果。

我们将问题(18)转化为轨迹最小化问题,并得出如下最优问题:

在这里插入图片描述

(18加了个负号 最大边最小)

在这里插入图片描述

问题(19)的目标函数可以重写为二次规划模型:

在这里插入图片描述

我们通过求解问题(20)获得锚的隶属度矩阵,然后获得原始数据点的隶属度。

优化

此部分采用ALM解决问题20

ALM算法通常用于求解方程约束优化问题,如下所示:

在这里插入图片描述

由于问题(20)很难直接计算,我们我们引入一个松弛变量V,并将问题(20)等价地转化为:

在这里插入图片描述

问题(21)的最优解可通过最小化以下增广拉格朗日函数获得

在这里插入图片描述

其中μ是惩罚参数,∑是拉格朗日乘子矩阵。当固定另一个变量时,我们针对一个变量优化问题(22),得到以下两个子问题

固定U更新V:问题(22)退化为

在这里插入图片描述

取问题(23)关于V的导数并将其设为零,我们可以得到

在这里插入图片描述

通过固定V更新U:问题(22)退化为

在这里插入图片描述

设Z=DV,问题(25)进一步等价于

在这里插入图片描述

应该注意,问题(26)对于每个i是独立的;因此,问题(26)可分为m个子问题

在这里插入图片描述

简化后,问题(27)可以改写为

在这里插入图片描述

问题(28)可以用闭式解来解决。问题(28)的拉格朗日函数表示为

在这里插入图片描述

式中,η为标度≥ 0是拉格朗日系数向量,两者都可以通过[41]中提出的迭代算法确定。根据Karush–Kuhn–Tucker(KKT)条件[42],最优解表示为

在这里插入图片描述

其中 ( x ) + = max ⁡ ( x , 0 ) (x)_+=\max(x,0) (x)+max(x0)。基于上述分析,算法1中描述了解决问题(20)的详细过程。

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Fuzzy TOPSIS方法基于alpha水平。 TOPSIS (Technique for Order of Preference by Similarity to Ideal Solution)是一种基于模糊数学的决策方法,它通过将决策选项与理想解和劣解进行比较,以确定决策选项的相对优劣。 在Fuzzy TOPSIS方法中,alpha水平是指决策者对决策选项的等价级别的度量。这个水平决定了决策者对不同选项的偏好程度,从而影响最终的决策结果。因此,Fuzzy TOPSIS方法可以帮助决策者在不确定情况下做出决策,并为决策提供一个可证明的理论基础。 ### 回答2: 模糊TOPSIS方法基于alpha水平,是一种决策分析方法。在这个方法中,我们使用了模糊理论来处理主观不确定性和模糊性的问题。 首先,我们需要收集和评估关于各个决策方案的指标数据。这些数据可以是定量的或定性的,并且可以是模糊的,即对于某些指标,我们无法准确地给出一个确定的值。 接下来,我们需要进行归一化处理,将所有的指标数据转化为[0,1]的范围内。这是为了确保不同指标之间的权重可以进行比较。 然后,我们需要确定指标的权重。在模糊TOPSIS方法中,我们使用alpha水平来表达指标的重要性。alpha水平是一个介于[0,1]的值,表示在决策过程中主观意见的影响程度。较高的alpha值意味着主观意见对于指标的重要性更高。 在确定了权重后,我们将计算模糊正理想解和模糊负理想解。模糊正理想解是指在每个指标上都取得最好结果的解,在模糊TOPSIS方法中,我们使用alpha水平来模糊化正理想解。类似地,模糊负理想解是指在每个指标上都取得最差结果的解,我们同样使用alpha水平来模糊化负理想解。 最后,我们根据与模糊正理想解和模糊负理想解的距离来计算每个方案的综合评分,并对它们进行排序。距离越小,表示该方案与正理想解更接近,评分越高。根据评分进行排序,我们可以确定最优的决策方案。 总之,基于alpha水平的模糊TOPSIS方法是一种能够处理主观不确定性和模糊性的决策分析方法。它可以帮助决策者在面对模糊问题时做出准确且合理的决策。 ### 回答3: 模糊TOPSIS方法基于Alpha水平。模糊TOPSIS方法是一种决策分析技术,用于解决模糊性和不确定性问题。它通过将决策问题分为模糊集合来处理模糊属性。Alpha水平则是用来确定模糊集合的界限。 在模糊TOPSIS方法中,首先需要对决策问题中的各个属性进行模糊化处理,将其表示为模糊集合。这样可以更好地捕捉属性的模糊性和不确定性。接下来,需要确定Alpha水平,即界定模糊集合的边界。Alpha水平可以是事先确定的值,也可以通过专家判断或经验来确定。 在使用模糊TOPSIS方法进行决策时,首先需要进行正向和负向标准化,将各个属性的值映射到[0, 1]的范围内。然后,根据不同的属性权重,计算每个方案的模糊综合评价值。接下来,根据与正理想解和负理想解的接近程度,计算每个方案的相对接近度。最后,通过比较各个方案的相对接近度,确定最佳方案。 在这个过程中,Alpha水平起到了重要作用,它可以影响模糊集合的大小和形状,进而影响模糊TOPSIS方法的结果。较大的Alpha水平会导致模糊集合较大,模糊程度较高,而较小的Alpha水平则会使模糊集合较小,模糊程度较低。因此,选择合适的Alpha水平对于获得准确的决策结果非常重要。 总之,Fuzzy TOPSIS方法基于Alpha水平,通过将决策问题中的属性模糊化处理,并根据Alpha水平确定模糊集合的边界,从而实现对模糊性和不确定性问题进行决策分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值