DETECTION OF FAKE IMAGES VIA THE ENSEMBLE OF DEEP REPRESENTATIONS FROM MULTI COLOR SPACES 论文阅读笔记

DETECTION OF FAKE IMAGES VIA THE ENSEMBLE OF DEEP REPRESENTATIONS FROM MULTI COLOR SPACES 论文阅读笔记


)

摘要

随着生成式对抗网络(GAN)的快速发展,可以很简单的生成一幅假脸,而且特别逼真,人们用人眼基本上不能发现问题。这样就可能产生一些社会问题(例如,安全,造假)。这篇文章,作者提出了使用多种颜色空间(YCbCr,Lab,HSV)的残差信号作为输入,然后用CNN提取公共特征,最后用随机森林的方法来对真脸和假脸进行分类。并且检测时,用的是经过处理的假脸,结果有较高的准确率,说明这种方法的鲁棒性还是很不错的。

检测方法

首先将RGB的图片转换为HSV,YCbCr,Lab的图像,然后分别提取他们色度分量,也就是H、S,Cb、Cr和a、b。然后用高通滤波处理,要残差信号。(高通滤波是[0,-1,0;-1,4,-1,0,-1,0])。然后将这三种残差分别用三种训练好的CNN去提取特征,再将提取到的三种特征融合,最后用随机森林的方法去分类。该方法的框架图在下边。

其中CNN的结构是由四个卷积模块组成,然后是三个完全连接的层。 最后,softmax层。 每个卷积模块是通过堆叠一个卷积层,一个激活层和一个最大池层来构造的。 每个模块的卷积层中输出特征图的数量分别为64、64、128和128。 在所有卷积层中,卷积核的大小设置为3×3,步幅为2×2。 所有最大池内核为2×2,步幅为2×2。 零填充应用于每个卷积层,以保持特征图的空间分辨率不变。全连接层的神经元的数量是2048,1024,2。
应用交叉熵损失从头开始优化浅层CNN。 文章分别针对每个色彩空间中色度分量的残留信号训练了浅层CNN。 经过训练后,我们分别获得了三个针对YCbCr,HSV和Lab颜色空间的经过训练的浅色CNN作为特征提取器。也就是第一段所说的用三种训练好的CNN去提取特征。
在这里插入图片描述

实验数据

在数据集方面,真实图像是在CelebFaces中随机选取了10000,假的图像是用PGGAN生成了10000张。然后分成了8500对作为训练集1500对做成了测试集。然后对测试集进行了处理,包括高斯模糊,双边滤波,中值滤波,伽马矫正,添加高斯噪声和改变大小的处理,然后进行测试。

实验

在实验中,准确率用作评估标准。在训练阶段,将8500对真实和伪造图像随机分为两个非重叠子集,比率为5:1,以进行训练和验证。使用Adam方法从头开始训练浅层CNN 。最小批量的大小设置为64。通过实验将两个不同的动量值设置为β1= 0.9和β2= 0.999。初始学习速率设置为2×10-5,学习速率衰减设置为1×10-5。根据在验证集上观察到的性能,已经针对CNN优化了训练时期的数量。卷积核中的参数使用均值为零且σ= 0.01的正态分布进行初始化,而卷积层的偏差将初始化为零。在训练过程之后,将三个训练后的浅层CNN用作特征提取器,以获取不同颜色空间中色度分量的特征。训练样本的检测特征(fM)用于训练RF分类器。对于RF分类器,随机森林的基本树数和最大树深度设置为150和10。其他参数设置为默认值。

实验结果

在这里插入图片描述
表中的[5]和[6]作为对比的方法。其中[5]也是基于真假脸颜色空间的差异对其进行检测。[6]是提出一种新的网络结构对真假脸进行检测。{RCr,Rcb},{RH,RS},{Ra,Rb}分别表示的是用上面提到的三种CNN提取出来的特征做分类的结果。Fusion+RF就是本文提出的把三个特征图合起来再用随机森林做分类的方法。
从结果上看,准确率还是很高的,很多都达到了百分之百。

问题和思考

  1. 为什么只考虑色度,而没有考虑亮度呢?
    在文章中我没有找到相关的论述,但是在文章[5]中找到了一些论述。
    在文章[5]中,作者随机选取了10000张假脸(WGAN-GP)和10000张真脸(CelebA),然后做出了各个颜色分量的直方图,并且计算出了真图像和假图像各个颜色分量的卡方距离(用来衡量真图像和假图像之间的差异)。
    在这里插入图片描述
    通过直方图发现,真图像和假图像的H、S、Cb、Cr的重叠区域比R、G、B,Y、V是更小的,也就是说真图像和假图像的H、S、Cb、Cr的差异是更大的。可以看出色度分量(H、S、Cb、Cr)的卡方距离都大于0.06,而亮度分量(Y、V)的卡方距离都小于0.02。这可以表明从色度分量中提取统计特征能更加容易的区分真图像和假图像。
  2. 为什么用高通滤波(残差)
    原因是假图像和真实图像的内容在视觉上非常相似,尤其是在轮廓等低频表示中。众所周知,人类对高频细节不那么敏感。结果,合理地抑制图像内容以增强高频视差。通过使用高通滤波,可以很好地捕获高频细节。实际上,从图像高通滤波残差中提取特征已在某些应用中成功使用。
  3. 这篇文章的检测结果
    这篇文章检测的只有PGGAN生成的图像,那如果检测其他GAN(例如WGAN)生成的图像的时候还会有这么高的准确率吗。也就是跨库性能怎么样。我没有复现测试,所以不知道答案。

文献

[5]. Haodong Li, Bin Li, Shunquan Tan, and Jiwu Huang, “Detection of deep network generated images using disparities in color components,” arXiv preprint arXiv:1808.07276, 2018.
[6]. Huaxiao Mo, Bolin Chen, and Weiqi Luo, “Fake faces identification via convolutional neural network,” in Proceedings of the 6th ACM Workshop on Information Hiding and Multimedia Security. ACM, 2018, pp. 43–47.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值