Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记

鱼汁一蘸

已于 2022-04-10 11:22:24 修改

阅读量3.6k

点赞数 1

分类专栏：一个字，GAN！文章标签：计算机视觉生成对抗网络图像处理

于 2022-04-10 08:57:09 首次发布

本文链接：https://blog.csdn.net/qq_44960530/article/details/124072367

版权

一个字，GAN！专栏收录该内容

2 篇文章 0 订阅

订阅专栏

作者信息

在这里插入图片描述

当前要解决的问题
- 基于GAN的方法使得图像到图像的翻译发生了巨大的变化，然而在使用源图像和参考图像合成新图像的任务中，现有的方法存在问题，即：合成后的图像缺乏保留源域identity（标识或身份）的能力，导致合成图像过度适应参考域，失去重要的结构特征，导致视觉效果不理想
解决方法
- 提出了一种基于频率域的图像翻译框架FDIT，利用频率的信息来增强图像生成过程
- 主要思想：
  - 将图像分解为低频和高频成分，并在图像翻译过程中调节频率一致性
    - 低频特征可以捕获颜色和照明等信息，而高频的特征可以捕获类似identity的对象结构，即物体的锐利边缘和重要细节
    - 如下图，第一行为低频分量，第二行为高频分量，使用了高斯核（低通滤波器）分解，k表示kernel size（实验表明，在适当范围内，FDIT对于k的选择不敏感）
  - 同时分别在像素空间和傅里叶频谱空间中保留了频率信息
    - 像素空间中，通过高斯核转换为高频/低频分量，Loss使得源图像和生成图像之间的高频分量尽量接近
    - 傅里叶频率空间中，通过快速傅里叶变换（FFT）直接调节频率域的一致性
- image-to-image翻译背景
  - 给定图像x，编码器E将其映射到潜在表示z $\in$ Z，latent code z可以表示为z=( $z_C$ , $z_S$ )，其中 $z_C$ 代表内容信息， $z_S$ 代表风格信息。通过L1范数损失函数使得原始输入x和生成图像G(E(x))最小化
  - 图像翻译阶段，生成器从源图像获得内容code $z_C^{source}$ ，从参考图像获得风格code $z_S^{ref}$ ，翻译后的图像由G( $z_C^{source}$ , $z_S^{ref}$ )给出
  - 然而现有的方法可能会受到其特征分解能力的限制，其中的 $z_C^{source}$ 可能无法捕获源图像的身份，因此与身份相关的特征可能会在翻译过程中丢失
- 具体流程如上图所示，左边为图像重构训练模型，右边为图像翻译生成新图像
- 获得高频/低频图像
  - 低频：使用高斯核对输入的图像x卷积后得到低频图像 $x_L$
    - [i,j]表示图像中的空间位置，m、n表示2维高斯核的索引，m，n $\in$ [ $-\frac{k-1}{2},\frac{k-1}{2}$ ]
  - 高频：首先将彩色图像转换为灰度图像（目的为删除与结构和identity无关的颜色与照明信息），然后减去低频信息，得到高频图像 $x_H$
    - rgb2gray函数表示将彩色图像转换为灰度
- 像素空间中
  - Reconstruction Loss
  - Translation matching Loss
    - $z_C^{source}$ 和 $z_S^{ref}$ 分别是源图像的内容code和参考域的风格code
    - 通过调节高频分量来实现翻译图像和源图像保持结构一致的目的
- 傅里叶频率空间中
  - 首先使用FFT将图像x从像素空间映射到傅里叶空间，将离散傅里叶变换F应用于尺寸为H $\times$ W的真实2D图像I上：
  - 为方便后续处理，将F从复数域转换为实数域，同时采用对数稳定训练
    - 式中 $\epsilon=1\times10^{-8}$ 是为了数值稳定性增加的参数；Re和Im分别表示F(I)(a,b)的实部和虚部
      - +1为了让log大于等于0，1+ $\epsilon$ 让log大于0
  - Reconstruction Loss
  - Translation matching Loss
    - 其中 $\mathcal{F}_H^R(x)=\mathcal{F}^R(rgb2gray(x))·M_H$ ， $M_H$ 是频率掩膜（Frequency mask）
- Frequency mask（下文关于频谱部分引用自这篇博文：图像的傅里叶变换的频谱特征）
  - 理解：由于离散傅里叶变换具有周期性，因此只取一个周期如下图所示
  - 为便于频域的滤波和频谱分析，常常在变换之前进行频谱中心化
    - 中心化后，可以看到中间最亮的点是最低频率；越往外频率越高
    - 同时，频谱能级分布如上图所示，DC所占能量最大最多，频率越高的部分，能量越少。三个圈分别包含了大约85%、93%和99%的能量
  - 因此本文中的Frequency mask选择如图3所示
    - 低频mask是一个半径为r的圆，而高频mask是互补区域，具体半径通过经验估计，如分辨率256x256的图像，半径选择为21，低频mask内的能量占整个频谱总能量的97.8%
总体Loss
- $\mathcal{L}_{org}$ 是任何图像翻译模型的原始损失函数，为简便本文使用 $\lambda_1=\lambda_2=\lambda_3=\lambda_4=1$
实验结果
- 在5个数据集和多个任务中评估FDIT，包括图像翻译和GAN反演，结果表明，FDIT能有效保持源图像identity，并产生逼真的图像。与之前的最佳方法相比，平均FID分数降低了5.6%

鱼汁一蘸

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记

Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记作者信息当前要解决的问题基于GAN的方法使得图像到图像的翻译发生了巨大的变化，然而在使用源图像和参考图像合成新图像的任务中，现有的方法存在问题，即：合成后的图像缺乏保留源域identity（标识或身份）的能力，导致合成图像过度适应参考域，失去重要的结构特征，导致视觉效果不理想解决方法提出了一种基于频率
复制链接

扫一扫