An Ensemble Clusterer of Multiple Fuzzy k-Means Clusterings to Recognize Arbitrarily Shaped Clusters
1.引言
1.1本文针对的问题:
现有的集成方法很难集成多个模糊k-均值聚类来寻找任意形状的簇,而对于谱聚类,密度聚类在大规模数据聚类上需要花费大量时间
1.2前提:
我们假设一个基本聚类的聚类中心可以很好地表示其邻域中的对象
1.3本文主要内容
1.提出了成员可信度的评价函数
2.使用MFKM算法,用于产生具有不同局部可信度空间的多个聚类。
3.基于基聚类的局部可信空间非直接重叠部分,构建基聚类中所以簇的连接图
4.基于成员可信函数和关系图决定最终聚类结果
2.相关工作
本部分主要介绍什么是聚类集成
聚类集成主要有两个任务:①构建基聚类generator ②设计策略来聚合基聚类得到最终输出分区
构建基聚类generator方法:①重复运行具有不同参数的聚类算法来产生基聚类 ②运用不同类型的聚类算法产生基聚类 ③在数据子空间或样本上运行一个或多个聚类算法
集成策略方法:①成对相似性方法 ②基于图的方法 ③基于重新标记的方法 ④基于特征的方法
3.新的聚类集成算法
3.1产生多个基聚类,得到它们的隶属度矩阵和簇矩阵
首先是提出了成员可信度函数,如下所示
,
其中里面的参数E(最右边)的含义为:局部可信度空间
此时在引入seta,取值范围在[0,1],新的目标函数就成为
文章提出了增量式学习的方法,用于更新seta
因此可以得到步骤1的算法流程图,最后输出基聚类的隶属度矩阵和簇中心矩阵
3.2构建簇之间的联系,得到最终的输出分区
由于簇的局部可再生空间的重叠通常很小或很小
因此提出了非直接重叠部分
若两个簇中心的距离不超过4*deta,那么我们称这两个簇中心关于潜在簇中心(也就是这两个簇的平均点重叠),如下图所示
对于这个非间接重叠部分我们则需要考虑两个因素:①簇中心之间的相似性 ②潜在簇中心的局部可信空间中的密度
①簇中心之间的相似性公式如下:
②潜在簇中心的局部可信空间中的密度公式如下:
最后将这两个参数整合到一起
根据上述公式可以得到一个无项权重图,这样问题就变成了一个切图问题,通过采用谱聚类的方法得到最终的输出结果
据此,可以得到步骤2的流程图
实验结果就不说了,有兴趣的自己看~