以往的Anti-Spoofing在基于深度学习方法做的时候通常当做一个二分类,输出是Real/Spoof,内部模型是一个黑箱。这个方法将De-Spoofing的模型的内部机理考虑了进去。
方法的假设大致有以下几点,1: 对于照片、视频播放来进行的Spoof会引入噪声,而这个噪声普遍存在且可重复。
因此,,其中的是原图,是一个与原始图片有关的噪声函数,这个公式就是算法的核心,文章的网络就是为了估计这个噪声函数,当成功得到准确的噪声模型,原始图像与spoofing图像之间就可以相互转换。
可是想要估计这个噪声函数N,有着以下几点困难,
1: 没有GroundTruth,即。
2: Spoofing的方式有很多,每一种都有不同的噪声模式。
如何来解决这些问题呢?
要估计当然要有一个网络,可以使用全卷积网络来完成,得到之后,与一起,便可以恢复出原始图像。用Magnitude Loss和傅里叶域分析得到Repetitive Loss来监督估计的。而对于恢复出的原始图像,要其进行评估。一方面,这里采用的思想类似于GAN,将其与Spoofing图像一起输入VQ网络判断是真实的图像还是Spoofing;另一方面,输入DQ网络,进行训练。另外在encoder和decoder中间还加了一层0\1 MAP损失来进行监督。最终网络的损失函数由上述五项加权得到。