集成聚类之Enhanced Ensemble Clustering via Fast Propagation of Cluster-Wise Similarities论文大纲整理及其翻译

前述

  • 本文是2021年发表在 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS:SYSTEMS上的一篇文章。
  • 论文链接请戳这里

论文贡献

  • 一种新的similarity衡量方式,通过从每个聚类结点开始随机游走,从而捕捉更高级别的ensemble information。
  • 提出了一种ECA矩阵,这种矩阵同时反应了对象的共生关系和聚类的结构信息。
  • 提出了两种一致性函数(共识函数)用于对得到的ECA矩阵进行聚类。

Notation

  • X = ( x 1 , x 2 , . . . x N ) X=(x_1,x_2,...x_N) X=(x1,x2,...xN) :样本数据集。
  • Π = { π 1 , . . . π M } Π=\{\pi^1,...\pi^M\} Π={π1,...πM}:表示M个基聚类器, π ∗ \pi^* π表示集成聚类的结果。
  • π m = { C 1 m , C 2 m , . . . , C n m m } , C j m \pi^m=\{C^m_1,C^m_2,...,C^m_{n^m}\},C^m_j πm={C1m,C2m,...,Cnmm},Cjm代表第m个基聚类器中的第j个簇。
  • n m n^m nm代表第m个基聚类器中的簇个数, N c = ∑ m = 1 M n m N_c=\sum^M_{m=1}n^m Nc=m=1Mnm代表所有簇的个数。

Propagation of cluster-wise similarities

这部分用于阐明如何进行随机游走,以及产生一个新的cluster-wise similarity matrix(该矩阵并不是ECA矩阵)。具体而言,分为以下两个步骤。

  • 1)构造图G(V,E),其中V代表所有的簇的集合,边集 E = { e i j = J a c c a r d ( C i , C j ) ∣ 0 ⩽ i , j ⩽ N c } E=\{e_{ij}=Jaccard(C_i,C_j)|0\leqslant i,j\leqslant N^c\} E={eij=Jaccard(Ci,Cj)0i,jNc}这是initial similarity graph。关于Jaccard相关系数可以点击这里。
  • 2)加入multiscale信息,具体的方法为首先构造一个概率转移矩阵,再通过概率转移矩阵构造一个新的相似度矩阵。
          2.1)构建单步概率转移矩阵
                                在这里插入图片描述
          2.2)多步概率转移矩阵
                              在这里插入图片描述
  • 从节点 C i C_i Ci开始进行t步的随机游走(random walk),定义符号 P i : ( 1 : t ) = { P i : ( 1 ) , P i : ( 2 ) , . . . , P i : ( t ) } P^{(1:t)}_{i:}=\{P^{(1)}_{i:},P^{(2)}_{i:},...,P^{(t)}_{i:}\} Pi:(1:t)={Pi:(1),Pi:(2),...,Pi:(t)}代表随机游走的轨迹,其中 P i : ( t ) = { P i 1 ( t ) , P i 2 ( t ) , . . . , P i N ( t ) } P^{(t)}_{i:}=\{P^{(t)}_{i1},P^{(t)}_{i2},...,P^{(t)}_{iN}\} Pi:(t)={Pi1(t),Pi2(t),...,PiN(t)}
  • 新的相似度矩阵 Z = { z i j } N c ∗ N c Z=\{z_{ij}\}_{N_c*N_c} Z={zij}NcNc,其中 z i j = S i m ( P i : ( 1 : t ) , P j : ( 1 : t ) ) z_{ij}=Sim(P^{(1:t)}_{i:},P^{(1:t)}_{j:}) zij=Sim(Pi:(1:t),Pj:(1:t)), S i m ( ⋅ , ⋅ ) Sim(·,·) Sim(,)是某种相似度衡量方式。文章采用的是余弦相似度。

ECA(Enhanced co-association matrix)矩阵构建

  • 得到相似度矩阵Z以后,继续将其(簇级别)映射至对象级别。
  • 首先,对于每一个基聚类器,构建一个矩阵 A m A^m Am,这个矩阵描述了每一个簇中包含有的样本。再根据 A m A^m Am构建共关联矩阵 A A A。具体如图下图所示。
                   在这里插入图片描述
  • 根据两个相似度矩阵 Z Z Z A A A,得到新的ECA矩阵,这个矩阵不仅考虑了co-coccurrence,还考虑了multiscale cluster-wise similarity。
                   在这里插入图片描述

两种共识函数(consensus function)

在得到了上述的ECA矩阵以后,我们可以对其进行任意方法的聚类,文章中提供了两种方法。分别为:

  • 基于层次聚类(hierarchical clustering)的共识函数——使用average-link对得到的ECA进行聚类。
  • 基于元聚类(meta-clustering)的的共识函数——这个和CBGF里面用到的方法一样,但是这篇文章里把他称为ECPCS-MC。

实验

  • 待补充
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值