NTU&商汤提出新 loss！Focal Frequency Loss 提升图像重建和图像合成的质量 ICCV2021

最新推荐文章于 2025-02-24 10:40:07 发布

flyfor2013

最新推荐文章于 2025-02-24 10:40:07 发布

阅读量4.7k

点赞数 3

文章标签：算法机器学习人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/flyfor2013/article/details/119922576

版权

点击下方“AI算法与图像处理”，一起进步！

重磅干货，第一时间送达

码字不易，给打工人点个赞吧。

今天分享一篇南洋理工大学&商汤科技的最新论文：

Focal Frequency Loss for Image Reconstruction and Synthesis

文章提出一种新的loss 函数，Focal Frequency Loss。目前的生气模型虽然已经有众多研究成果，但是生成的图像与真实图像依然有差距，特别是在频域。因此，本文提出一个针对频域的loss，同时借鉴困难样本挖掘的策略，对不同频率根据难易程度进行加权。作者通过大量的实验，证明其新loss的有效性！

https://github.com/EndlessSora/focal-frequency-loss

https://arxiv.org/pdf/2012.12821.pdf

更多 ICCV 2021 的论文和代码，以及相关的报告和解读都进行整理（欢迎star）

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

由于生成模型的发展，图像重建和合成取得了显著的进展。尽管如此，真实图像和生成的图像之间仍然可能存在差距，特别是在频域。在这项研究中，我们发现缩小频域中的间隙可以进一步改善图像重建和合成质量。我们提出了一种新的 focal frequency loss ，该 loss 允许模型自适应地关注于难以合成的频率分量，通过降低容易合成的分量的权重。该目标函数是对现有空间loss的补充，对由于神经网络固有偏差而导致的重要频率信息的loss提供了很大的阻抗。我们展示了focal frequency loss的多功能性和有效性，以改进诸如VAE、pix2pix和SPADE等流行模型的感知质量和定量性能。我们进一步展示了它在StyleGAN2上的潜力。

动机

目前的图像生成模型，虽然取得了不错的进展，但是依然存在一定问题，生成的图像与真实图像之间还存在差距，特别是频域。

解决方案

首先要明确一些基本的概念

1、2D discrete Fourier transform（2维离散傅里叶变换）

2、Euler’s formula（欧拉公式）

通过欧拉公式将公式（1）中的包含e 的部分进行一定的变换：

变换之后，即可将公式 1 拆成实部与虚部，用于后续计算频域距离。

将公式 1 写成更加通俗易懂的方程：

amplitude：

phase：

频率距离应该考虑振幅和相位，因为它们捕获图像的不同信息。我们在图3中展示了一个单一的图像重建实验。只需最小化振幅差，就可以得到具有不规则颜色图案的重建图像。相反，仅使用相位信息，合成图像类似于噪声。只有同时考虑振幅和相位，才能实现可靠的重建。

我们的解决方案是将每个频率值映射到二维空间（即平面）中的欧几里德向量。按照复数的标准定义，实部和虚部分别对应于x轴和y轴。

同时这里还引入了动态加权的策略。

受困难样本挖掘[12,59]和focal loss[41]的启发，我们制定了将训练重点放在“困难”频率上的方法。为了实现这一点，我们引入了频谱权重矩阵来降低“简单”频率的权重。频谱权重矩阵由训练期间每个频率的当前loss的非均匀分布动态确定。每个图像都有自己的光谱权重矩阵。矩阵的形状与光谱的形状相同。矩阵元素w（u，v），即（u，v）处空间频率的权重，定义为：

完整的 focal frequency loss (FFL)：

实验&效果：

结论

所提出的 focal frequency loss 直接优化了频域中的图像重建和合成方法。loss 自适应地将模型聚焦于难以处理的频率分量，以改善质量。这种损失是对不同类别、网络结构和任务的不同基线的现有空间损失的补充，优于相关方法。我们进一步展示了 focal frequency loss 对改善StyleGAN2合成结果的潜力。探索其他应用和设计更好的频域优化策略可能是未来有趣的工作。

新建学术交流群，欢迎各位小伙伴进群交流

努力分享优质的计算机视觉相关内容，欢迎关注：




个人微信（如果没有备注不拉群！）
请注明：地区+学校/企业+研究方向+昵称



下载1：何恺明顶会分享
在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2：终身受益的编程指南：Google编程风格指南
在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！

下载3 CVPR2021


在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮，告诉大家你也在看