Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions
论文:https://arxiv.org/abs/2003.01826
代码:https://github.com/cc-hpc-itwm/UpConv
摘要:生成式卷积深度神经网络,例如流行的GAN架构,依赖于基于卷积的上采样方法来生成非标量输出,例如图像或视频序列。在本文中,我们表明常见的上采样方法(即上卷积或转置卷积)导致此类模型无法正确再现自然训练数据的频谱分布。此效果与基础架构无关,我们证明了该效果可用于轻松地检测生成的数据,如Deepfake,其公开基准的准确度高达100%。为了克服当前生成模型的这一缺点,我们建议在训练优化目标中添加一个新的频谱正则项。我们证明了这种方法不仅允许训练避免高频误差的频谱一致性GAN。同样,我们表明,频谱的正确近似对生成网络的训练稳定性和输出质量具有积极影响。
1 Introduction
尽管GAN和VAE方法都已发布了许多不同的变体,例如具有不同的损失函数[18、4、20],不同的潜在空间约束[41、13、13、21、30]或生成器网络的各种深度神经网络(DNN)拓扑结构[47、43],所有这些方法必须遵循基本的数据生成原理:它们必须将样本从低维(通常为1D)和低分辨率的潜在空间转换为高分辨率(2D图像)的输出空间。因此,这些生成神经网络必须提供某种(可学习的)放大特性。
尽管所有这些生成方法都通过优化某些损失函数来指导其模型参数的学习,但最常用的损失仅集中于输出图像空间的属性,例如使用卷积神经网络(CNN)作为鉴别器网络来处理图像生成GAN中的隐式损耗。已经证明这种方法足以产生视觉上的声音输出,并且能够在某种程度上捕获图像空间中的数据(图像)分布。但是,众所周知,按比例放大操作会明显改变信号的频谱特性[28],从而在输出中引起高频失真。
Deepfake: 我们展示了我们的发现对Deepfake detection 任务的实际影响。 Deepfake [22,8]一词描述了最近人们滥用通过深层生成神经网络[7]伪造人脸的先进技术来产生名人和政客的虚假图像的现象。由于这种虚假图像可能对社会产生影响,因此,deepfake detection 已成为其自身的重要研究课题。文献[38、3、57]中报道的大多数方法本身都依赖CNN,因此需要大量带注释的训练数据。同样,[24]引入了具有对比损失函数的深层伪造鉴别器,[19]通过在CNN之上采用递归神经网络(RNN)合并了时域信息。
本文主要贡献:
- 我们通过实验证明了当前的生成神经网络体系结构无法正确估计训练数据的频谱分布。
-
我们利用这些频谱失真为生成的图像和视频提出了一个非常简单但高度准确的检测器,即DeepFake检测器,其在公共基准上的准确度达到了100%。
-
我们的理论分析和进一步的实验表明,常用的上采样单位(即上卷积)正在引起观察到的效果。
-
我们提出了一种新颖的频谱正则项,它能够补偿频谱失真。
-
我们还通过实验表明,在GAN训练中使用频谱正则化会导致更稳定的模型并提高视觉输出质量。
2 上卷积对频谱的影响
2.1 使用DFT功率谱上的方位积分分析图像的光谱分布
对M×N的2D图像进行DFT分解:
2.2 生成式DNN的上卷积
像GAN这样的生成型神经体系结构会产生高维输出,例如来自非常低维的潜在空间的图像。因此,所有这些方法都需要在通过网络传播数据时使用某种扩展机制。图3中说明了文献中流行的