论文阅读“Contrastive Fine-grained Class Clustering via Generative Adversarial Networks“(ICLR2022)

论文标题

Contrastive Fine-grained Class Clustering via Generative Adversarial Networks

论文作者、链接

作者:

Kim, Yunji and Ha, Jung-Woo

链接:https://arxiv.org/abs/2112.14971

代码:GitHub - naver-ai/c3-gan: Official Pytorch implementation of C3-GAN (Spotlight at ICLR 2022)


Introduction逻辑(论文动机&现有工作存在的问题)

无监督细粒度类聚类Unsupervised fifine-grained class clustering——针对非常相似的目标的图像分类任务——一些基于多视图的无监督学习方法取得了不错的结果,但是基于以下原因,无法用于细粒度聚类中:1)在细粒度类中去发现类与类之间的区别更难,这种任务的数据集往往更大,如图1所示;2)如果在这些图像上使用数据增广,改变了颜色或者形状,可能对结果有较大的影响,因为这两个因素对图像非常重要

生成对抗网络GAN——通过对潜码latent code之间最小化互信息,在类别推理中取得了不错的结果——但是需要进行标注,并且额外的训练分类器,缺失学习真实图片的分布的能力

本文提出(Constrastive fifine-grained Class Clustering GAN ,C3-GAN),不依赖于标注,使用无监督的场景分解学习方法。在训练判别器的过程中使用了对比学习的方法,通过定义图片的潜在特征为数据对,最大化正对之间的互信息,最小化负对之间的负信息。这是基于”如果聚类质心的分布方式,使每个簇都能线性可分,那么该解最优“的直觉。作者将生成器的输入,即从类别分布中生成的分布,映射到嵌入空间中,让其扮演簇中心,它提取以特定值生成的图像的特征。因此,与其他latent values相关的则被设为负对,由于对比损失的性质,每个簇彼此之间的距离会更远。此外,鉴别器的嵌入空间也有助于缓解模型崩溃问题。

论文核心创新点

提出了一种新的信息理论正则化形式来学习聚类友好的嵌入空间,使数据集形成不同的聚类边界而不陷入退化解。

场景解耦学习方法


相关工作

无监督聚类

无监督场景解耦

精细特征学习


论文方法

给定一个数据集X=\left\{x_{i}\right\}_{i=0}^{N-1},由单一对象的图片组成,目标是将这些数据分为Y个细腻的语义类。本文基于GAN的模型推导了鉴别器D的语义特征空间\mathcal{H} \in \mathbb{R}^{d^{h}}中的数据簇。特征空间\mathcal{H}是通过最大化潜码latent code与图片特征\hat{x}之间的互信息得到的。为了学习到更具有鲁棒性的表征,将一个场景解耦为前景区和背景区,并将潜码与前景区联系起来。作者重写了信息理论正则化,以优化为潜在图像特征对定义的对比损失,以诱导每个簇在特征空间中线性分离。

预备知识

本文模型基于FineGAN,而FineGAN又基于InfoGAN。InfoGAN通过最大化潜码c和其特征\hat{x}之间的互信息以学习其权值,即\text{I}(c,\hat{x})。潜码c可以因为我们想要推断的先验知识,变成各式各样的形式,在一个给定的数据集上进行分类推断时,潜码c被设为这个类别分布的形式。FineGAN学习三个潜码,以实现层次图像生成,对于每一个潜码,分别用于背景、超类对象、子类对象合成;FineGAN使用了多对生成器和判别器去训练一个备用的背景分类器。进一步证明了目标图像合成的潜码,也可以用于根据图像数据集的细粒度类进行聚类。

本文与FineGAN不同的地方:1)使用鉴别器D来推理聚类,而不需要训练额外的分类器;2)对于一个前景目标的精细类,只学习一个对应的潜码c。单独的随机噪声z被保留,这是生成器的另一个输入,用来模拟背景区域发生的变化。噪音值z \in \mathbb{R}^{d^z}是从一个正态分布\mathcal{N}(0,I)中生成,潜码c \in \mathbb{R}^Y是一个1-hot编码,其中索引k使得c_k=1是从一个均匀的类别分布\mathcal{U}(0,Y-1)中采样的。背景生成器G^{bg}从随机的噪声z中生成背景图片\hat{x}^{b g} \in \mathbb{R}^{3 \times H \times W},前景生成器G^{fg}使用z,c合成前景图片\hat{m} \in \mathbb{R}^{1 \times H \times W}以及目标图片\hat{t} \in \mathbb{R}^{3 \times H \times W}。为了模拟前景变化,我们将1-hot潜码c转换为变量c^\prime \in \mathbb{R}^{d^c},其值从高斯分布N(\mu_c,\sigma_c)中采样,其中均值\mu_c和对角协方差矩阵\sigma_c根据原始代码c计算得到。最终的图片\hat{t} \in \mathbb{R}^{3 \times H \times W}是阿达玛乘积求和而成的,如图2所示。

 为了实现无监督学习,作者利用了背景解耦方法,该方法由PerturbGAN提出。具体来说,在最终的图像合成之前,通过随机仿射变换矩阵\mathcal{T}_\theta扰动前景分量的\hat{m}\hat{t},以实现场景分解。随机矩阵\mathcal{T}_\theta的参数\theta包括旋转角、缩放因子和平移距离,它们都是从具有预定取值范围的均匀分布中随机抽样的。

 图像生成过程如下所示:

对比细腻类聚类

假设当i)它们在嵌入空间\mathcal{H}中形成显式可识别的聚类边界,ii)每个簇中心l_y \in \mathbb{R}^{d^h}浓缩了不同的语义特征时,数据将被很好地聚类。这正是从均匀分类分布中采样潜码c时,InfoGAN鉴别器所要接近的空间,\mathcal{U}(0, Y-1)。但是,由于联合优化对抗损失,该模型有可能陷入模式崩溃,即生成器G只覆盖少数高置信度模态(类),从而容易欺骗鉴别器D。这就是InfoGAN缺乏对真实图像数据集推断聚类能力的原因。为了解决这个问题,作者提出了一个辅助概率Q(c|x),代表潜码c和图像\hat{x}之间的互信息。鉴别器D的目标是学习一个对抗特征r \in \mathbb{R},用于图像真伪鉴别,学习一个语义特征h \in \mathbb{R}^{d^h},用于优化信息论正则化。这些特征是从\psi ^r_x\psi ^h_x的独立分支中编码的,这两个分支在鉴别器D_{base}的基编码器的末端被分割开来。对抗性特征r的铰链损失如下式所示:


不翻译了,看得我头痛,以后不看韩国的工作了…

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值