AIGC时代的ImageNet!百万生成图片助力AI生成图片检测器研发

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

作者:王云鹤 | 源:知乎(已授权转载)

https://zhuanlan.zhihu.com/p/640326907

56e3ef3a06743b3fc40f5c83856aefc5.jpeg

图1 数据集图像展示

论文:https://arxiv.org/abs/2306.08571

项目主页:https://genimage-dataset.github.io/

GitHub:https://github.com/GenImage-Dataset/GenImage

1 引言:

在这个AIGC爆发的时代,人人都可以利用AI算法生成高质量的文本,图像,音频内容。其中,由Midjourney, Stable Diffusion等图像生成方法制作的图像,其逼真程度让人赞叹。人眼已经难以对其真假进行区分了。这不禁唤起了人们的隐忧:大量虚假图片将会在互联网上广泛传播。虚假图片的泛滥会引发多种社会安全问题。例如,虚假新闻会扰乱社会秩序,混淆视听。恶意的人脸图片造假则会引发金融欺诈,造成信任危机。例如,下图为Midjourney生成的特朗普被捕图片。这类图片在社交媒体上广泛传播,对政治领域造成了不良影响。因此,对这些AI生成的图像进行有效监管是非常有必要的。

dd21679b742648e4bb06dd5ab9d08367.jpeg

图2 AI生成的特朗普被捕图片,来源于https://news.sina.com.cn/c/2023-04-15/doc-imyqmchz0199110.shtml

考虑到人眼已经难以对真假图片进行区分,我们急需一种AI生成图像检测器以区分AI制作的图像和真实的图像。然而,现在大规模数据集的缺失妨碍了检测器的开发。因此,我们提出了百万量级的GenImage数据集,致力于构建AIGC时代的ImageNet。

2 数据集介绍:

f28c538d1dfc298c4c7a6322347467a9.jpeg

表1 虚假图片检测数据集概览

过去业界也有推出一些数据集。他们主要有三个特点。第一个是数据规模小,第二个是都是基于GAN的,第三个是局限于人脸数据。随着时间推移,数据规模慢慢地在增加,生成器也从GAN时代过渡到Diffusion时代,数据的范围也在增加。但是一个大规模的,以Diffusion模型为主的,涵盖各类通用图像的数据集仍然是缺失的。

基于此,我们提出一个对标imagenet的genimage数据集。真实的图片采用了ImageNet。虚假的图片采用ImageNet的标签进行生成。我们利用了八个先进的生成器来生成,分别是Midjourney, Stable Diffusion V1.4, Stable Diffusion V1.5, ADM, GLIDE, Wukong,VQDM和BigGAN。这些生成器生成的图片总数基本与真实图片一致。每个生成器生成的图片数量也基本一致。每一类生成的图片数量基本一致。

这个数据集具有以下优势:

1. 大量的数据:超过百万对图片对。

2. 丰富的图片内容:利用ImageNet进行构建,具有丰富的标签
3. 先进的生成器:覆盖Midjourney, Stable Diffusion等Diffusion生成器。

在真实世界中检测器往往会遇到各种各样的困难。我们经过实验发现,检测器往往在两种情况下性能下降严重。第一种是面对训练集中未出现的生成器生成的图片时。第二种是面对退化的图像。例如,CNNSpot在Stable Diffusion V1.4上训练后,在Midjourney上测试仅有52.8的准确率。当训练和测试生成器同为Stable Diffusion V1.4,在面对模糊的图像时,CNNSpot准确率仅仅为77.9。基于此,我们在这个数据集基础上对检测器提出两个挑战:

1. 交叉生成器:检测器在一种生成器生成的数据上训练,在其他生成器生成的数据上验证。这个任务目的是考察检测器在不同生成器上的泛化能力。

2. 退化图像识别:检测器需要对于低分辨率,模糊和压缩图像进行识别。这个任务主要考察检测器在真实条件(如互联网上传播)中面对低质量图像时的泛化问题。

我们相信这个数据集的提出将大大有助于人们开发AI生成图片检测器。

3 实验:

我们做了一些实验来考察这个数据集,我们发现在某个生成器上训练的ResNet-50模型在其他的测试准确率会明显降低。然而在真实情况下我们难以得知遇到的图像的生成器是什么。因此检测器对于不同生成器生成图片的泛化能力很重要。

d4f9bdb61191355e20a03b6cef0e1218.jpeg

表2 使用ResNet 50在不同生成器上交叉验证

我们对比了现有方法在Stable Diffusion V1.4上训练,然后在各种生成器上测试的结果,见图3。我们也评测了各种生成器上训练,然后在各种生成器上测试的结果。见图4。图4中,Testing Subset那一列中的每一个数据点,都是在八个生成器上训练,然后在一个生成器上测试得到的平均结果。然后我们将这些测试集上的结果平均,得到最右侧的平均结果。

c490f5f1976df900f88c9ce75cd4153d.jpeg

表3 在Stable Diffusion V1.4上训练,不同测试集上测试

1bf2c3541cacb010589f882c0eefad6f.jpeg

表4 在不同生成器上训练,不同测试集上测试

我们对测试集进行退化处理,采用不同参数下的低分辨率,JPEG压缩和高斯模糊,评测结果如下

d8cd61d12b31cfb039a5889ecd4ee9e7.jpeg

表5 在不同退化图像上验证结果

那么采集这么多数据是不是有用呢?我们做了相关实验,证明通过提升数据类比和每类的图片数量,我们是可以提高性能的。

0fc37575164f3367f6d5cb2b5aac41c4.jpeg

表6 提升图片数量的结果

针对GenImage数据集对于不同图片的泛化能力,我们发现他对于人脸和艺术类图片也能达到很好的效果。

be8eba7cfc969d26b6baecd0f390933d.jpeg

表7 泛化到艺术类和人脸类图片的结果

8377e1b988780fbddba2ae0485b24b5d.jpeg

图3 测试所用的艺术类和人脸类图片展示

4 展望

随着AI生成图片能力的不断提升,对于AI生成的图片实现有效检测的需求将会越来越迫切。本数据集致力于为真实环境下的生成图片检测提供有效训练数据。我们使用ResNet-50在本数据集中训练,然后在真实推文中进行检测。如下图4,ResNet-50能够有效识别真图和假图。这个结果证明了GenIamge可以用于训练模型以判别真实世界的虚假信息。我们认为,该领域未来值得努力的方向是不断提升检测器在GenImage数据集上的准确率,并进而提升其在真实世界面对虚假信息的能力。

59124568d0a344e45ef7e5ae0f97c9ab.jpeg

图4.1 真实推文展示(真图)

2c7f90ef52fdf5159ed9d839048bd4d9.jpeg

图4.2 真实推文展示(假图)

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看6ceb90aafc839b35345899f303ded4b3.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值