CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。

本文针对未配对的图像到图像翻译(I2I)任务,提出了一种新的QS-Attn模块,通过选择具有重要域信息的锚点进行对比学习,以保留源内容并提高翻译质量。方法通过计算源域特征的注意力矩阵和熵,选择具有较低熵值的特征作为对比学习的锚点,同时利用注意力矩阵在两个域中路由特征,保持源关系。实验证明,这种方法在不增加模型参数的情况下提升了I2I任务的性能。
摘要由CSDN通过智能技术生成

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


摘要

提示:论文原文摘要:

未配对的图像到图像 (I2I) 翻译通常需要在不同域中最大化源图像和已翻译图像之间的互信息,这对于生成器保留源内容并防止其进行不必要的修改至关重要。自监督对比学习已经成功应用于 I2I。通过将来自相同位置的要素限制为比来自不同位置的要素更近,它隐含地确保了结果从源获取内容。然而,先前的工作使用来自随机位置的特征来施加约束,这可能是不适当的,因为一些位置包含较少的源域信息。而且,特征本身并不反映与其他特征的关系。本文通过有意选择重要的锚点(anchor)进行对比学习来解决这些问题。我们设计了一个查询选择注意(QS-Attn)模块,它比较源域中的特征距离,给出一个注意矩阵,每行都有一个概率分布。然后我们根据从分布计算的重要性度量来选择查询。选择的那些被认为是对比损失的锚点。同时,减少的注意力矩阵用于在两个域中路由特征,以便在合成中保持源关系。我们在三个不同的 I2I 数据集中验证了我们提出的方法,表明它在不添加可学习参数的情况下提高了图像质量。

Codes are available at:代码地址


一、 框架图

图1
QS-Attn 的详细信息。

一、目前unpaired I2I

在许多 I2I 任务中,无法获得配对数据,因此 G 不能直接由 Y 中的真实图像引导。确保输出接受输入内容对于提高其质量很重要。 [25,45,50] 中提出的典型方法通过另一个生成器 G’ 将结果转换回域 X,并在输入和最终输出之间设置循环一致性惩罚。虽然提高了质量,但他们引入了两个生成器和判别器,大大增加了训练成本。
最近,CUT [36] 结合了 G 输出和输入的跨域特征之间的对比学习。关键思想是约束来自编码器 E 的特征,要求来自相同位置的特征与来自不同位置的特征相近。去掉 QS-Attn 模块,图 1 说明了 CUT 的整体结构。从翻译图像的特征中选择一个随机位置的锚点,然后从输入的特征中也采样一个对应的正数和许多负数。计算anchor的对比损失,使模型最大化相应特征之间的互信息。请注意,CUT 只有一个方向。因此只需要一个G,降低了训练成本。图像质量大大提高,表明跨域的对比损失在 I2I 中很有用。
但是,CUT 仍然忽略了两个问题,这些问题可能会得到改进。首先,它在对比学习中没有选择有目的的锚点。因为它们中的每一个都代表原始图像分辨率中的一个小块,并且它们中的许多可能不反映任何与 I2I 相关的域特征。我们认为,只有那些包含重要域信息的才需要编辑,并且强加于它们的对比损失对于保证跨域的一致性更有意义。其次,每个锚点特征只有有限的感受野,没有考虑与其他位置的关系。这种关系提供了有价值的线索,以保持源内容稳定并使翻译相关。

二、本文方法

我们以简单的方式考虑上述两个问题,将 QS-Attn 模块插入到模型中,如图 1 所示,而不引入额外的模型参数。为了评估不同位置的特征显着性,我们直接利用 E 中的特征作为查询和键来计算源域中的注意力矩阵,然后计算分布熵作为度量。图 2 提供了直观的说明,其中这种熵度量以热图的形式可视化。特别是,给定需要翻译的输入图像,我们应用预训练的 CycleGAN [50] 和 CUT [36] 模型的编码器来获取特征并计算注意矩阵,然后计算它的每一行的熵。我们按升序对熵进行排序,并在图像上显示最小的 N 个点。对于马和猫图像,马的身体和猫的脸的熵值较小。对于Label图像,点主要位于类别的边缘。因此,熵可以作为衡量特征在反映域特征中的重要性的指标,因此我们可以对其施加对比损失,确保对域相关特征的准确翻译。
本文旨在定量测量每个anchor特征的显着性,并根据度量选择相关的用于对比损失。基于前面的分析,我们计算注意力矩阵中每一行的熵,保留熵值较小的那些。剩余的行形成查询选择的注意力(QS-Attn)矩阵,该矩阵由更少的查询组成,并且它们被进一步用于路由价值特征。这里将相同的矩阵与源域和目标域的值相乘,隐含地保持源域中的特征关系,避免对结果进行过度修改。
本文的贡献在于以下几个方面:

  • 我们在 I2I 任务中提出了一种 QS-Attn 机制。我们的方案是选择相关的锚点,将它们作为查询来关注和吸收其他位置的特征,形成更适合对比学习的特征。 QS-Attn 保持 CUT 中的简单设计,不添加任何模型参数。
  • 我们研究了量化查询的重要性、执行注意力和路由 QS-Attn 模块中的价值特征的不同方法,并发现跨域价值路由的基于熵的测量和全局注意力是稳健的方法.
  • 我们对常用的数据集进行了密集的实验,并表明所提出的方法在大多数两个域 I2I 任务中实现了 SOTA。

三、实验结果

与其他方法的视觉结果比较。我们在三个基准数据集上将我们的模型与 FSeSim、CUT、CycleGAN 和 MUNIT 进行了比较。在 QS-Attn 的结果中,Horse → Zebra 和 Cat → Dog 的翻译图像来自 QS-Attn(Global),Cityscapes 的结果是使用 QS-Attn(Global+Local) 生成的。
表1,与其他方法的定量比较。最后三行是我们具有不同设置的模型,详细信息在第 2 节中说明。 4.2.最佳性能以粗体表示。FID 和 SWD 都测量真实图像和生成图像的两个分布之间的距离,较低的表示生成的图像与真实图像相似。
用户研究统计。这些方法在三个方面进行了比较:图像质量(Q)、目标域一致性(T)和域无关一致性(C)。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值