论文阅读“Contrastive Fine-grained Class Clustering via Generative Adversarial Networks“(ICLR2022)

最新推荐文章于 2024-06-22 09:35:33 发布

不吃香菜的zbw

最新推荐文章于 2024-06-22 09:35:33 发布

阅读量490

点赞数 1

分类专栏：论文阅读文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_43497436/article/details/126870138

版权

论文阅读专栏收录该内容

39 篇文章 11 订阅

订阅专栏

论文标题

Contrastive Fine-grained Class Clustering via Generative Adversarial Networks

论文作者、链接

作者：

Kim, Yunji and Ha, Jung-Woo

链接：https://arxiv.org/abs/2112.14971

代码：GitHub - naver-ai/c3-gan: Official Pytorch implementation of C3-GAN (Spotlight at ICLR 2022)

Introduction逻辑（论文动机&现有工作存在的问题）

无监督细粒度类聚类Unsupervised fifine-grained class clustering——针对非常相似的目标的图像分类任务——一些基于多视图的无监督学习方法取得了不错的结果，但是基于以下原因，无法用于细粒度聚类中：1）在细粒度类中去发现类与类之间的区别更难，这种任务的数据集往往更大，如图1所示；2）如果在这些图像上使用数据增广，改变了颜色或者形状，可能对结果有较大的影响，因为这两个因素对图像非常重要

生成对抗网络GAN——通过对潜码latent code之间最小化互信息，在类别推理中取得了不错的结果——但是需要进行标注，并且额外的训练分类器，缺失学习真实图片的分布的能力

本文提出（Constrastive fifine-grained Class Clustering GAN ，C3-GAN），不依赖于标注，使用无监督的场景分解学习方法。在训练判别器的过程中使用了对比学习的方法，通过定义图片的潜在特征为数据对，最大化正对之间的互信息，最小化负对之间的负信息。这是基于”如果聚类质心的分布方式，使每个簇都能线性可分，那么该解最优“的直觉。作者将生成器的输入，即从类别分布中生成的分布，映射到嵌入空间中，让其扮演簇中心，它提取以特定值生成的图像的特征。因此，与其他latent values相关的则被设为负对，由于对比损失的性质，每个簇彼此之间的距离会更远。此外，鉴别器的嵌入空间也有助于缓解模型崩溃问题。

论文核心创新点

提出了一种新的信息理论正则化形式来学习聚类友好的嵌入空间，使数据集形成不同的聚类边界而不陷入退化解。

场景解耦学习方法

论文方法

给定一个数据集 $X=\left\{x_{i}\right\}_{i=0}^{N-1}$ ，由单一对象的图片组成，目标是将这些数据分为 $Y$ 个细腻的语义类。本文基于GAN的模型推导了鉴别器D的语义特征空间 $\mathcal{H} \in \mathbb{R}^{d^{h}}$ 中的数据簇。特征空间 $\mathcal{H}$ 是通过最大化潜码latent code与图片特征 $\hat{x}$ 之间的互信息得到的。为了学习到更具有鲁棒性的表征，将一个场景解耦为前景区和背景区，并将潜码与前景区联系起来。作者重写了信息理论正则化，以优化为潜在图像特征对定义的对比损失，以诱导每个簇在特征空间中线性分离。

预备知识

本文模型基于FineGAN，而FineGAN又基于InfoGAN。InfoGAN通过最大化潜码 $c$ 和其特征 $\hat{x}$ 之间的互信息以学习其权值，即 $\text{I}(c,\hat{x})$ 。潜码 $c$ 可以因为我们想要推断的先验知识，变成各式各样的形式，在一个给定的数据集上进行分类推断时，潜码 $c$ 被设为这个类别分布的形式。FineGAN学习三个潜码，以实现层次图像生成，对于每一个潜码，分别用于背景、超类对象、子类对象合成；FineGAN使用了多对生成器和判别器去训练一个备用的背景分类器。进一步证明了目标图像合成的潜码，也可以用于根据图像数据集的细粒度类进行聚类。

本文与FineGAN不同的地方：1）使用鉴别器D来推理聚类，而不需要训练额外的分类器；2）对于一个前景目标的精细类，只学习一个对应的潜码 $c$ 。单独的随机噪声z被保留，这是生成器的另一个输入，用来模拟背景区域发生的变化。噪音值 $z \in \mathbb{R}^{d^z}$ 是从一个正态分布 $\mathcal{N}(0,I)$ 中生成，潜码 $c \in \mathbb{R}^Y$ 是一个1-hot编码，其中索引 $k$ 使得 $c_k=1$ 是从一个均匀的类别分布 $\mathcal{U}(0,Y-1)$ 中采样的。背景生成器 $G^{bg}$ 从随机的噪声 $z$ 中生成背景图片 $\hat{x}^{b g} \in \mathbb{R}^{3 \times H \times W}$ ，前景生成器 $G^{fg}$ 使用 $z,c$ 合成前景图片 $\hat{m} \in \mathbb{R}^{1 \times H \times W}$ 以及目标图片 $\hat{t} \in \mathbb{R}^{3 \times H \times W}$ 。为了模拟前景变化，我们将1-hot潜码 $c$ 转换为变量 $c^\prime \in \mathbb{R}^{d^c}$ ，其值从高斯分布 $N(\mu_c,\sigma_c)$ 中采样，其中均值 $\mu_c$ 和对角协方差矩阵 $\sigma_c$ 根据原始代码 $c$ 计算得到。最终的图片 $\hat{t} \in \mathbb{R}^{3 \times H \times W}$ 是阿达玛乘积求和而成的，如图2所示。

为了实现无监督学习，作者利用了背景解耦方法，该方法由PerturbGAN提出。具体来说，在最终的图像合成之前，通过随机仿射变换矩阵 $\mathcal{T}_\theta$ 扰动前景分量的 $\hat{m}$ 和 $\hat{t}$ ，以实现场景分解。随机矩阵 $\mathcal{T}_\theta$ 的参数 $\theta$ 包括旋转角、缩放因子和平移距离，它们都是从具有预定取值范围的均匀分布中随机抽样的。

图像生成过程如下所示：

对比细腻类聚类

假设当i)它们在嵌入空间 $\mathcal{H}$ 中形成显式可识别的聚类边界，ii)每个簇中心 $l_y \in \mathbb{R}^{d^h}$ 浓缩了不同的语义特征时，数据将被很好地聚类。这正是从均匀分类分布中采样潜码c时，InfoGAN鉴别器所要接近的空间， $\mathcal{U}(0, Y-1)$ 。但是，由于联合优化对抗损失，该模型有可能陷入模式崩溃，即生成器G只覆盖少数高置信度模态(类)，从而容易欺骗鉴别器D。这就是InfoGAN缺乏对真实图像数据集推断聚类能力的原因。为了解决这个问题，作者提出了一个辅助概率 $Q(c|x)$ ，代表潜码 $c$ 和图像 $\hat{x}$ 之间的互信息。鉴别器D的目标是学习一个对抗特征 $r \in \mathbb{R}$ ，用于图像真伪鉴别，学习一个语义特征 $h \in \mathbb{R}^{d^h}$ ，用于优化信息论正则化。这些特征是从 $\psi ^r_x$ 和 $\psi ^h_x$ 的独立分支中编码的，这两个分支在鉴别器 $D_{base}$ 的基编码器的末端被分割开来。对抗性特征 $r$ 的铰链损失如下式所示: