1. 聚类的基本思想
再介绍下面这篇论文之前,我们先来回顾一下聚类算法的核心思想。其核心主要是让聚类后的各个簇“离得尽可能远”,这样就能最大程度上使得聚类的准确度最高。那么现在的问题就是我们应该如何来量化“离得尽可能远”呢?或者什么叫“离得尽可能远”,怎么来刻画?
我们都知道传统Kmeans算法仅仅只是最小化簇内距离(先计算每个簇中,每个样本点到其簇中心距离和 S 1 , S 2 , ⋯   , S k S_1,S_2,\cdots,S_k S1,S2,⋯,Sk;再计算 S = S 1 + S 2 ⋯ S k S=S_1+S_2\cdots S_k S=S1+S2⋯Sk,其中最小化 S S S就是Kmeans的思想)。我们可以看到它并没有考虑簇间距离,但从直觉上来说,最小化簇内距离,并且同时让各个簇“离得尽可能远”,这样将会使得聚类效果更好。所以,下面这篇文章的主要思想就是: 最小化簇内距离,同时最大化簇间距离(“离得尽可能远”)
2. ESSC算法
在之前的子空间聚类论文中,如WKMeans,EWKMeans等等。在这些算法中,毫无例外得都没有考虑到簇间聚类在聚类中所起到得作用。在这篇论文中,作者提出了通过最大化各个簇中心点到全局中心点得距离和来达到最大化簇间距离得目的。
注:论文中这个图是用来说明两种权重形式得区别,我这儿是借用这个图来说明论文的主要思想
如图所示,一共样本点中一种有3个簇 r e d , g r e e n , b l u e red,green,blue red,green,blue,其中心点分别为 v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3。 v 0 v_0 v0为所用样本的中心点,即全局中心。ESSC算法的思想就是,在最小化簇内距离的时候,同时最大化 v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3到 v 0 v_0