论文标题
Contrastive Fine-grained Class Clustering via Generative Adversarial Networks
论文作者、链接
作者:
Kim, Yunji and Ha, Jung-Woo
链接:https://arxiv.org/abs/2112.14971
代码:GitHub - naver-ai/c3-gan: Official Pytorch implementation of C3-GAN (Spotlight at ICLR 2022)
Introduction逻辑(论文动机&现有工作存在的问题)
无监督细粒度类聚类Unsupervised fifine-grained class clustering——针对非常相似的目标的图像分类任务——一些基于多视图的无监督学习方法取得了不错的结果,但是基于以下原因,无法用于细粒度聚类中:1)在细粒度类中去发现类与类之间的区别更难,这种任务的数据集往往更大,如图1所示;2)如果在这些图像上使用数据增广,改变了颜色或者形状,可能对结果有较大的影响,因为这两个因素对图像非常重要
生成对抗网络GAN——通过对潜码latent code之间最小化互信息,在类别推理中取得了不错的结果——但是需要进行标注,并且额外的训练分类器,缺失学习真实图片的分布的能力
本文提出(Constrastive fifine-grained Class Clustering GAN ,C3-GAN),不依赖于标注,使用无监督的场景分解学习方法。在训练判别器的过程中使用了对比学习的方法,通过定义图片的潜在特征为数据对,最大化正对之间的互信息,最小化负对之间的负信息。这是基于”如果聚类质心的分布方式,使每个簇都能线性可分,那么该解最优“的直觉。作者将生成器的输入,即从类别分布中生成的分布,映射到嵌入空间中,让其扮演簇中心,它提取以特定值生成的图像的特征。因此,与其他latent values相关的则被设为负对,由于对比损失的性质,每个簇彼此之间的距离会更远。此外,鉴别器的嵌入空间也有助于缓解模型崩溃问题。
论文核心创新点
提出了一种新的信息理论正则化形式来学习聚类友好的嵌入空间,使数据集形成不同的聚类边界而不陷入退化解。
场景解耦学习方法
相关工作
无监督聚类
无监督场景解耦
精细特征学习
论文方法
给定一个数据集,由单一对象的图片组成,目标是将这些数据分为个细腻的语义类。本文基于GAN的模型推导了鉴别器D的语义特征空间中的数据簇。特征空间是通过最大化潜码latent code与图片特征之间的互信息得到的。为了学习到更具有鲁棒性的表征,将一个场景解耦为前景区和背景区,并将潜码与前景区联系起来。作者重写了信息理论正则化,以优化为潜在图像特征对定义的对比损失,以诱导每个簇在特征空间中线性分离。
预备知识
本文模型基于FineGAN,而FineGAN又基于InfoGAN。InfoGAN通过最大化潜码和其特征之间的互信息以学习其权值,即。潜码可以因为我们想要推断的先验知识,变成各式各样的形式,在一个给定的数据集上进行分类推断时,潜码被设为这个类别分布的形式。FineGAN学习三个潜码,以实现层次图像生成,对于每一个潜码,分别用于背景、超类对象、子类对象合成;FineGAN使用了多对生成器和判别器去训练一个备用的背景分类器。进一步证明了目标图像合成的潜码,也可以用于根据图像数据集的细粒度类进行聚类。
本文与FineGAN不同的地方:1)使用鉴别器D来推理聚类,而不需要训练额外的分类器;2)对于一个前景目标的精细类,只学习一个对应的潜码。单独的随机噪声z被保留,这是生成器的另一个输入,用来模拟背景区域发生的变化。噪音值是从一个正态分布中生成,潜码是一个1-hot编码,其中索引使得是从一个均匀的类别分布中采样的。背景生成器从随机的噪声中生成背景图片,前景生成器使用合成前景图片以及目标图片。为了模拟前景变化,我们将1-hot潜码转换为变量,其值从高斯分布中采样,其中均值和对角协方差矩阵根据原始代码计算得到。最终的图片是阿达玛乘积求和而成的,如图2所示。
为了实现无监督学习,作者利用了背景解耦方法,该方法由PerturbGAN提出。具体来说,在最终的图像合成之前,通过随机仿射变换矩阵扰动前景分量的和,以实现场景分解。随机矩阵的参数包括旋转角、缩放因子和平移距离,它们都是从具有预定取值范围的均匀分布中随机抽样的。
图像生成过程如下所示:
对比细腻类聚类
假设当i)它们在嵌入空间中形成显式可识别的聚类边界,ii)每个簇中心浓缩了不同的语义特征时,数据将被很好地聚类。这正是从均匀分类分布中采样潜码c时,InfoGAN鉴别器所要接近的空间,。但是,由于联合优化对抗损失,该模型有可能陷入模式崩溃,即生成器G只覆盖少数高置信度模态(类),从而容易欺骗鉴别器D。这就是InfoGAN缺乏对真实图像数据集推断聚类能力的原因。为了解决这个问题,作者提出了一个辅助概率,代表潜码和图像之间的互信息。鉴别器D的目标是学习一个对抗特征,用于图像真伪鉴别,学习一个语义特征,用于优化信息论正则化。这些特征是从和的独立分支中编码的,这两个分支在鉴别器的基编码器的末端被分割开来。对抗性特征的铰链损失如下式所示:
不翻译了,看得我头痛,以后不看韩国的工作了…