- 作者信息
-
当前要解决的问题
- 基于GAN的方法使得图像到图像的翻译发生了巨大的变化,然而在使用源图像和参考图像合成新图像的任务中,现有的方法存在问题,即:合成后的图像缺乏保留源域identity(标识或身份)的能力,导致合成图像过度适应参考域,失去重要的结构特征,导致视觉效果不理想
-
解决方法
-
提出了一种基于频率域的图像翻译框架FDIT,利用频率的信息来增强图像生成过程
-
主要思想:
- 将图像分解为低频和高频成分,并在图像翻译过程中调节频率一致性
- 低频特征可以捕获颜色和照明等信息,而高频的特征可以捕获类似identity的对象结构,即物体的锐利边缘和重要细节
- 如下图,第一行为低频分量,第二行为高频分量,使用了高斯核(低通滤波器)分解,k表示kernel size(实验表明,在适当范围内,FDIT对于k的选择不敏感)
- 同时分别在像素空间和傅里叶频谱空间中保留了频率信息
- 像素空间中,通过高斯核转换为高频/低频分量,Loss使得源图像和生成图像之间的高频分量尽量接近
- 傅里叶频率空间中,通过快速傅里叶变换(FFT)直接调节频率域的一致性
- 将图像分解为低频和高频成分,并在图像翻译过程中调节频率一致性
-
image-to-image翻译背景
- 给定图像x,编码器E将其映射到潜在表示z ∈ \in ∈Z,latent code z可以表示为z=( z C z_C zC, z S z_S zS),其中 z C z_C zC代表内容信息, z S z_S zS代表风格信息。通过L1范数损失函数使得原始输入x和生成图像G(E(x))最小化
- 图像翻译阶段,生成器从源图像获得内容code z C s o u r c e z_C^{source} zCsource,从参考图像获得风格code z S r e f z_S^{ref} zSref,翻译后的图像由G( z C s o u r c e z_C^{source} zCsource, z S r e f z_S^{ref} zSref)给出
- 然而现有的方法可能会受到其特征分解能力的限制,其中的 z C s o u r c e z_C^{source} zCsource可能无法捕获源图像的身份,因此与身份相关的特征可能会在翻译过程中丢失
-
具体流程如上图所示,左边为图像重构训练模型,右边为图像翻译生成新图像
-
获得高频/低频图像
-
低频:使用高斯核对输入的图像x卷积后得到低频图像 x L x_L xL
- [i,j]表示图像中的空间位置,m、n表示2维高斯核的索引,m,n ∈ \in ∈[ − k − 1 2 , k − 1 2 -\frac{k-1}{2},\frac{k-1}{2} −2k−1,2k−1]
-
高频:首先将彩色图像转换为灰度图像(目的为删除与结构和identity无关的颜色与照明信息),然后减去低频信息,得到高频图像 x H x_H xH
- rgb2gray函数表示将彩色图像转换为灰度
-
-
像素空间中
-
Reconstruction Loss
-
Translation matching Loss
- z C s o u r c e z_C^{source} zCsource和 z S r e f z_S^{ref} zSref分别是源图像的内容code和参考域的风格code
- 通过调节高频分量来实现翻译图像和源图像保持结构一致的目的
-
-
傅里叶频率空间中
-
首先使用FFT将图像x从像素空间映射到傅里叶空间,将离散傅里叶变换F应用于尺寸为H × \times ×W的真实2D图像I上:
-
为方便后续处理,将F从复数域转换为实数域,同时采用对数稳定训练
- 式中
ϵ
=
1
×
1
0
−
8
\epsilon=1\times10^{-8}
ϵ=1×10−8是为了数值稳定性增加的参数;Re和Im分别表示F(I)(a,b)的实部和虚部
- +1为了让log大于等于0,1+ ϵ \epsilon ϵ让log大于0
- 式中
ϵ
=
1
×
1
0
−
8
\epsilon=1\times10^{-8}
ϵ=1×10−8是为了数值稳定性增加的参数;Re和Im分别表示F(I)(a,b)的实部和虚部
-
Reconstruction Loss
-
Translation matching Loss
- 其中 F H R ( x ) = F R ( r g b 2 g r a y ( x ) ) ⋅ M H \mathcal{F}_H^R(x)=\mathcal{F}^R(rgb2gray(x))·M_H FHR(x)=FR(rgb2gray(x))⋅MH, M H M_H MH是频率掩膜(Frequency mask)
-
-
Frequency mask(下文关于频谱部分引用自这篇博文:图像的傅里叶变换的频谱特征)
-
理解:由于离散傅里叶变换具有周期性,因此只取一个周期如下图所示
-
为便于频域的滤波和频谱分析,常常在变换之前进行频谱中心化
- 中心化后,可以看到中间最亮的点是最低频率;越往外频率越高
- 同时,频谱能级分布如上图所示,DC所占能量最大最多,频率越高的部分,能量越少。三个圈分别包含了大约85%、93%和99%的能量
-
因此本文中的Frequency mask选择如图3所示
- 低频mask是一个半径为r的圆,而高频mask是互补区域,具体半径通过经验估计,如分辨率256x256的图像,半径选择为21,低频mask内的能量占整个频谱总能量的97.8%
-
-
-
总体Loss
- L o r g \mathcal{L}_{org} Lorg是任何图像翻译模型的原始损失函数,为简便本文使用 λ 1 = λ 2 = λ 3 = λ 4 = 1 \lambda_1=\lambda_2=\lambda_3=\lambda_4=1 λ1=λ2=λ3=λ4=1
-
实验结果
- 在5个数据集和多个任务中评估FDIT,包括图像翻译和GAN反演,结果表明,FDIT能有效保持源图像identity,并产生逼真的图像。与之前的最佳方法相比,平均FID分数降低了5.6%