abstract
由于先进生成模型可以生成逼真的图像,加剧了对虚假信息宣传的担忧。但是,当前没有最先进图像生成器生成的大量图片的数据集,成为了这类检测器发展的一个障碍。
本文介绍了GenImage数据集有以下几个优点:
- 大量数据,有一百万对
- 内容丰富,有大量类别
- 由最先进的GAN和Diffusion模型生成
文章还对数据集进行了全面分析,并提出了两个评估检测方法的任务,模拟真实世界场景:
- 跨生成器图像分类任务:测量一个生成器上训练的检测器,在别的生成器上的测试性能
- 降级图像分类任务:评估检测器在处理如低分辨率,模糊和压缩图像等降级图像的能力
Dataset Construction
Fake Image Generators
- Diffusion Model:midjourney Wukong Stable Diffusion ADM GLIDE VQDM
- GAN model:在过去的几十年中,为图像生成带来了显着的质量改进。BigGAN
GenImage Benchmark
Fake Image Detectors
- backbone model:直接使用ResNet-50,DeiT-S ,Swin-T来做检测器,没有特别的设计
- Fake Face Detector:F3Net和GramNet,都是用于检测虚假人脸的
F3Net同时探索频率分量的划分和频率统计分布 GramNet考虑全局纹理特征
- General Fake Image Detector:Spec:在真实图片中添加由GAN生成的伪造特征。
Task 1: Cross-Generator Image Classification
检测某一生成模型的生成图像很简单。目标是做一个能够独立于使用的生成器区分真实和虚假图像的判别模型。
为了评估人工智能生成器检测器的识别能力,提出了跨生成器图像分类任务。具体实施时,研究者在Stable Diffusion V1.4上训练模型,然后在来自不同生成器的测试子集上进行测试,并计算各测试子集的平均准确率。
表2:在Stable Diffusion V1.4上训练得到最好的结果。
表3:每种方法训练一个模型在一个生成器上,然后在八个生成器上进行评估。为每种方法平均八个结果。
表4:每种方法在八个不同的生成器上分别训练八个模型,每个模型都在八个生成器上进行评估,然后为每种方法平均六十四个结果。
CNNSpot通过增加训练数据的方法(如模糊和JPEG压缩)来尝试提高识别性能。Spec利用频谱(而非像素)作为输入,针对GAN生成图像中的上采样组件产生的独特伪造特征进行分类。
Task 2: Degraded Image Classification
图像在传播过程中经常会遇到降级问题。设计一种合理的预处理方法,是解决数据集中图像分类退化的一种有前途的方法。
GenImage 分析
- 通过增加类的数量和增加每个类中的图像数量,都可以提高模型的性能
- 扩散模型生成的图像在检测上呈现更大的挑战,因为它们的频谱特征与真实图像更为接近,使得区分真假变得更加困难。
- 数据集在图像类别上的泛化性能,也表明在1000个类别上进行全面训练可能在未见图像上取得更好的结果。
- 在设计和评估用于图像伪造检测的模型时,考虑生成器的相似性和架构差异的重要性。通过在结构相似的生成器上训练和测试,可以提高模型的泛化能力,从而更有效地应对各种生成器产生的图像。