paper:paper
补充材料:supp
一篇cvpr深度聚类文章
简介
浅层模型难以捕捉非线性特征,并且应用到大数据及上有困难。深度学习方法则容易产生过拟合。本文提出方法ClusterGAN,解决问题。利用GAN解决聚类问题,同时对self-paced进行改进成balanced self-paced方法。模型分为三个部分,一个生成器G,一个判别器D和一个聚类器C。聚类器负责对 x x x提取特征并返回一个具有类别信息的变量 z z z。生成器负责从一个具有类别信息的变量 z ′ z' z′产生出一个样本 x ′ x' x′。判别器负责判别 ( z , x ) (z,x) (z,x)对来自生成器还是聚类器。对模型进行学习就可以得到聚类信息
模型方法
聚类器 C \mathcal{C} C的输出层是一个sigmoid层,可以用来表示样本间余弦相似度,
为了表示聚类关系,我们可以期望得到的样本相似度矩阵是一个对角块矩阵,每一个块是同一个类别的相似性。为了达到这个目的,让生成器 G G G的输入关于同类别为平行向量,不同类别的为正交的。假设 z z z的维度为 m m m个样本, c c c为类别数,让 z z z为一个0,1向量,其中 m / c m/c m/c个为1,其余的为0。为了使样本多样性,生成同一个类别的多个样本,让 z z z再加上一个均匀随机的noise。
生成器和聚类器得到的 ( z , x ) (z,x) (z,x)对的联合分布可以拆分为
p ( z , x ^ ) = p ( z ) p G ( x ^ ∣ z ) p ( z ^ , x ) = p ( x ) p