用于图像重建和合成的焦频损失
摘要
在本研究中,我们发现缩小频域间隙可以进一步改善图像重建和合成质量。
我们提出了一种新的焦频损耗,它允许模型通过降权重的方式自适应地聚焦于难以合成的频率分量。这个目标函数是对现有空间损失的补充,对由于神经网络的固有偏差造成的重要频率信息损失提供了巨大的阻抗。
一、介绍
图像重建和合成,在某些情况下,人们仍然可以观察到真实图像和生成图像之间的差距。例如,使用转置卷积的上采样层往往会产生棋盘效应。
- 可以观察到,在真假图像之间的频域差距可能是这些图像合成方法的共同问题,尽管形式略有不同
当神经网络应用于重构和综合任务时,在频域观察到的差距可以归因于某些固有的偏差。
谱偏倚现象:神经网络对低频函数的学习偏倚。
因此,生成模型倾向于避开难以合成的频率成分,即hard frequencies,并收敛到一个较低的点。F-Principle表明,在整个训练过程中,网络中特定频率拟合的优先级也是不同的,通常由低到高。因此,模型很难保持重要的频率信息,因为它倾向于生成优先级更高的频率。
在本文,仔细研究了真假图像之间的频域差距,并探索了通过缩小这一差距来改善重建和综合质量的方法。现有方法通常采用空间域的像素损失,但空间域的损失很难帮助网络找到hard frequencies并合成它们,因为每个像素对于某一频率具有相同的意义。
我们使用标准离散傅里叶变换(DFT)将真实样本和生成样本转换为它们的频率表示。图像被分解为正弦和余弦,显示出周期性。频谱上的每个坐标值依赖于空间域中的所有图像像素,代表一个特定的空间频率。最小化真假图像光谱上的坐标值的距离可以帮助网络轻松地定位光谱上的困难区域,即艰hard frequencies。
受到hard example mining和focal loss的启发,我们提出了一个简单而有效的频率级目标函数,称为焦频损耗。考虑了空间频率的幅值和相位信息,将每个谱坐标值映射到二维空间的欧几里得向量上。所提出的损失函数由这些向量的比例欧几里德距离定义,通过使用动态频谱权重矩阵对easy frequencies进行降权来定义这些向量的欧几里德距离。。直观上,根据训练过程中各频率电流损失的非均匀分布,动态更新矩阵。然后,该模型将迅速聚焦于hard frequencies,并逐步细化生成的频率,以提高图像质量。
贡献
(1)提出了一种新的焦频损失,直接优化了频域中的生成模型。
(2)解释了使模型能够专注于hard frequencies的方法,这可能是质量改进的关键。
二、相关工作
图像重建与合成。自动编码器(AE)和生成对抗网络(GAN)是两个流行的图像重建和合成模型。
现有的方法通常应用空间域损失函数,如感知损失 ,而很少考虑优化频域。光谱正则化提出了一个初步的尝试。本文提出的聚焦频率损失算法,通过降低easy frequencies的权重,动态地将模型聚焦到hard frequencies上,直接通过频域改善图像质量。
神经网络频域分析。尽管对各种问题进行了广泛的探索,通过频域改进重建和合成质量仍然很少探索。
Hard example processing. Hard example processing被广泛应用于目标检测和图像分类,以解决类别不平衡的问题。常见的解决方案是使用hard example mining,代表性方法是online hard example mining(OHEM),根据当前每个样本的损失情况对训练样本进行取样,以修改随机梯度下降,该模型被鼓励更多地学习困难的样本,以提高性能。另一种解决方案是focal loss(焦损失),是一个比例交叉熵损失。在训练过程中,比例因子降低了简单样本的权重,使模型能够专注于学习困难样本。提出的焦频损失是受这些技术的启发。
- 受到hard example mining和focal loss的启发,提出了focal frequency loss
三、Focal Frequency Loss
用频率来表示图像,便于网络定位hard frequencies。
然后定义一个频率距离来量化图像在频域之间的差异。
最后,采用动态频谱加权方法,使模型能够聚焦于动态hard frequencies。
3.1 Frequency Representation of Images
这一节回顾并强调离散傅里叶变换的几个关键概念。我们展示了图像中缺失频率的影响以及频率表示在定位hard frequencies方面的优势。
离散傅里叶变换(Discrete Fourier transform, DFT)是一个复值函数,它将一个离散的有限信号转换为其组成频率,即复指数波。一个图像可以被看作是一个只有实数的二维离散有限信号。因此,为了将图像转换为其频率表示,我们进行二维离散傅里叶变换:
(x, y)为图像像素在空间域的坐标,f(x, y)为像素值,(u, v)为空间频率在频谱上的坐标,F(u, v)为复频率值,e和i分别为欧拉数和虚单位。欧拉公式:
式(1)中的自然指数函数可以写成:
根据(1)和(3),二维DFT后,将图像分解为正交的正弦和余弦函数,分别构成频率值的虚部和实部。每一个正弦或余弦都可以看作是(x, y)的二值函数,其角频率由频谱位置(u, v)决定。这些正弦和余弦的混合提供了图像的水平和垂直频率。因此,空间频率在图像中表现为二维正弦分量。光谱坐标(u, v)也表示空间频率的角度方向,F (u, v)表示图像对该频率的“响应”。由于三角函数的周期性,图像的频率表示也具有周期性。
作为一个直观的观点,我们在图12中给出了一些具有特定空间频率的二维正弦分量的例子。观察到波的角度方向和密度(角频率)依赖于光谱坐标(u,v)。此外,复频率值 F (u,v)可以作为每个波的权重,加权和在空间域对应于整个图像。
在式(1)中,F(u, v)是遍历空间域中每个图像像素的函数的和,因此频谱上特定的空间频率取决于所有图像像素。为了直观的可视化,我们抑制光谱的一个中心点(最低频率)(图2的第二列),导致所有图像像素受到影响。低通滤波器(列3),即,丢失高频,导致模糊和典型的振铃伪影。高通滤波器(列4),即,低频缺失,倾向于保留边缘和边界。有趣的是,一个简单的带阻滤波器(列5),即。,缺少某些频率,产生可见的常见棋盘伪影(放大查看)。
可以看出,频谱上不同区域的损失对应着图像上不同的伪影。可以推断,补偿这些损失可以减少伪影,提高图像重建和合成质量。这里的分析显示了使用图像的频率表示来分析和定位不同的频率,特别是hard frequencies的价值。
3.2 Frequency Distance
需要一个距离度量来量化真假图像在频域上的差异。为了支持随机梯度下降,这个距离必须是可微的。
在频域中,数据对象是频谱上不同的空间频率,在图像中表现为不同的二维正弦分量。为了设计我们的频率距离,我们进一步研究了式(1)中复值F(u, v)的实部和虚部。
F(u, v)中有两个关键元素,第一个元素是振幅,定义为:
振幅显示能量,即,图像对特定频率的二维正弦波的响应强度。我们通常将振幅显示为频谱的可视化信息(如图1和图2)。
第二个元素是相位的,可以写成:
相位表示二维正弦波与起始值(周期的开始)的位移。
频率距离应该同时考虑振幅和相位,因为它们捕获了图像的不同信息。图3显示了一个单图像重建实验。仅仅将振幅差最小化,就可以得到具有不规则颜色图案的重建图像。相反,如果只使用相位信息,合成的图像就像噪声。只有同时考虑振幅和相位才能实现真实的重建。
我们的解决方案是将每个频率值映射到二维空间(即平面)中的一个欧几里得向量。根据复数的标准定义,实部和虚部分别对应于x轴和y轴。
设为真实图像频谱坐标(u,v)处的空间频率值,对应的
为假图像的。
和
分别表示为Fr(u, v)和Ff(u, v)映射的两个向量(见图4)。
根据振幅和相位的定义,我们注意到矢量大小和
对应的是振幅,而角度θr和θf对应的是相位。因此,频率距离对应于
和
之间的距离,它同时考虑了矢量大小和角度。我们对单个频率使用(平方)欧几里得距离:
真假图像之间的频率距离可以写成平均值:
3.3 Dynamic Spectrum Weighting
动态频谱加权。
我们在式(8)中定义的频率距离在频域中定量地比较真图像和假图像。然而,直接使用(8)作为损失函数对于处理hard frequencies没有帮助,因为每个频率的权重是相同的。由于固有偏差,模型仍然偏向于easy frequencies。
受到hard example mining和focal loss的启发,我们制定集中训练hard frequencies方法。
为了实现这一目标,引入了一个频谱权值矩阵来降低easy frequencies的权值。频谱权重矩阵是由训练过程中当前的各频率损失的非均匀分布动态确定的。每张图像都有自己的频谱权重矩阵。矩阵的形状与光谱的形状相同。矩阵元素w(u, v),即, (u, v)处空间频率的权值定义为:
其中α是灵活性的比例因子(在我们的实验中α= 1)。进一步将矩阵值归一化到[0,1]范围内,矩阵中的权值1对应于当前损失最大的频率,并将easy frequencies降低权重。通过频谱权重矩阵的梯度是锁定的,所以它只作为每个频率的权值。
通过对频谱权重矩阵和频率距离矩阵进行Hadamard乘积,得到了聚焦频率损失(FFL)的完整形式:
焦频损失可以看作是真假图像之间频率距离的加权平均值。模型的重点是通过降低easy frequencies的权重来合成hard frequencies。此外,对聚焦区域进行动态更新,以补充即时hard frequencies,从而逐步优化生成的图像,并适应不同的方法。
在实践中,为了将提出的焦频损失应用到一个模型中:
首先使用二维DFT将真实图像和假图像转换为它们的频率表示。然后对每个频率值F (u, v)进行归一化,即,将其除以√(mn),使二维DFT是单位的,保证梯度的平滑。最后,利用式(10)计算焦频损失。我们注意到,焦频损失的确切形式并不重要。