论文阅读《SepMark: Deep Separable Watermarking for Unified Source Tracing and Deepfake Detection》

ACM MM 2023 湖南大学


一、论文主要内容

1.现存问题

本文的研究问题是如何提供一种主动的防御解决方案,以在可预见的篡改之前对原始人脸进行源追踪和Deepfake检测。

2.作者的目标是什么,已经实现了什么,还存在哪些局限

(1)目标

(2)作者已经实现的成果

  • 提出了一种名为SepMark的深度可分离水印技术,它在当前深度水印研究中引入了新的范式。SepMark使用一个编码器和两个可分离的解码器,可以在不同的鲁棒性级别上提取水印。
  • 设计了一种端到端的学习架构,包括单个编码器、鉴别器和两个可分离的解码器,通过从随机前向噪声池中采样不同类型的失真进行训练。
  • 在人脸图像上进行了广泛的实验,证明了追踪器在多种失真情况下的高鲁棒性,以及探测器在恶意Deepfake失真下的选择性脆弱性。

3.研究方法/技术

研究方法/技术

介绍

对抗训练的方法

为了监督编码图像的视觉质量,采用对抗训练的方法。具体来说,即使用了一个额外的判别器(discriminator)来与主要的编码器-解码器交替训练。判别器使用了PatchGAN的结构,用于将每个图像块分类为原始图像还是编码图像。

使用RaLSGAN的GAN损失函数

提高训练的稳定性

编码器和解码器是基于深度学习的模型

编码器使用了一个卷积神经网络(CNN)架构,而解码器使用了一个反卷积神经网络(DeCNN)架构。这些网络模型被训练用于将输入图像编码为隐藏表示,并将隐藏表示解码为重构图像

评估指标的综合使用

在评估编码图像的客观视觉质量时,SepMark使用了多个评估指标,包括PSNR、SSIM和LPIPS,以综合考虑图像的清晰度、结构相似性和感知质量。对于鲁棒性测试,使用BER作为评估指标,能够准确评估在不同篡改情况下的水印提取性能。

注:PSNR数值越高表示图像质量越好,SSIM数值越接近1表示图像质量越好,LPIPS数值越低表示图像质量越好。

4.方法/技术的创新点、关键要素

(1)创新点

提出了深度可分离水印技术SepMark,其中一个编码器嵌入水印,两个解码器可以在不同的鲁棒性水平上分别提取水印,这种深度可分离水印技术在源追踪和Deepfake检测方面提供了一个统一的框架。

(2)关键要素

单个编码器(Encoder)、鉴别器(采用PatchGAN结构)和两个可分离的解码器(Tracer、Detector)的端到端学习架构,以及从随机前向噪声池中采样不同类型的失真进行训练。其中,Tracer能够抵抗常见和恶意扭曲,而Detector则对恶意Deepfake扭曲具有选择性的敏感性。此外,损失函数和训练过程起到关键作用。

  • 损失函数:SepMark使用多个损失函数来训练编码器、追踪器和检测器。这些损失函数包括对抗损失、重构损失和分类损失,以确保生成的编码图像具有良好的鲁棒性和可辨识性。
  • 训练过程:SepMark的训练过程包括两个阶段。首先,编码器和追踪器被联合训练,以生成具有高鲁棒性的编码图像。然后,编码器和检测器被联合训练,以生成具有低鲁棒性但对恶意失真敏感的编码图像。

5.实验设计、对比方法

(1)实验设计

实验设计

具体内容

数据集

CelebA-HQ数据集

24183张图像用于训练,2993张用于验证,2824张用于测试

CelebA测试集

19962张人脸图像

COCO验证集

5000张常见物体图像

图像

处理操作

SimSwap

人脸交换

用于交换的目标人脸是从CelebA的验证集中随机选择的

GANimation

表情再现

用于重演的目标表情是从特定的驱动图像中随机选择的

StarGAN

属性编辑

用于编辑的属性集包括性别、年龄、黑发、金发和棕发

图像大小

(分辨率)

128 × 128, 256 × 256

评估指标

评估客观视觉质量

整个测试集中编码图像的平均PSNR、SSIM和LPIPS

鲁棒性测试

平均比特错误率(BER)

有效性测试

与基准线的预训练模型进行比较

采用鲁棒性水印方法,如MBRS、CIN、PIMoG

脆弱性水印方法FaceSigns

鲁棒性测试

SepMark在不同扭曲方式下的鲁棒性测试结果对比

Table2为常见扭曲图像的鲁棒性测试

Table3为恶意扭曲图像的鲁棒性测试

跨数据集在不同扭曲方式下的鲁棒性测试结果对比

Table8是数据集CelebA上的图像是在常见和恶意扭曲下的鲁棒性测试结果

Table9是数据集COCO上的常见扭曲图像的鲁棒性测试结果

泛化能力

测试

通过跨数据集对不同类型的扭曲和攻击进行评估

使用了CelebA数据集的测试集

COCO数据集的验证

消融实验

通过功能的影响来评估它们对整体性能的影响

调整嵌入的消息的范围(结果见Table4)

改变训练顺序,逐步训练一个解码器,然后再训练另一个解码器的方式(结果见Table5)

注:所有这些操作都是基于已发布的预训练模型进行的。

(2)对比方法

a.编码图像的视觉质量

鉴于SepMark是首个深度可分离水印工作,所以采用鲁棒性水印方法和脆弱性水印方法作为基准线。分析实验结果如下。

b.模型的鲁棒性测试

对于常见扭曲图像、恶意扭曲图进行鲁棒性测试,实验结果分析如下。

c.消融实验

消融实验是通过功能的影响来评估它们对整体性能的影响。在这篇论文中,进行了一系列的消融实验来评估模型的不同部分对其性能的贡献。实验结果及分析介绍如下。

d.模型的泛化性能力测试

通过跨数据集对不同类型的扭曲和攻击进行评估,实验结果及分析介绍如下。

二、复现

### 回答1: Xception是一种深度学习模型,它使用深度可分离卷积来提高模型的效率和准确性。深度可分离卷积是一种卷积操作,它将标准卷积分成两个步骤:深度卷积和逐点卷积。深度卷积在每个输入通道上执行卷积,而逐点卷积在每个通道之间执行卷积。这种方法可以减少计算量和参数数量,同时提高模型的准确性。Xception模型在图像分类、目标检测和语义分割等任务中表现出色。 ### 回答2: Xception是一个基于深度可分离卷积的深度学习架构。深度学习在计算机视觉和自然语言处理等领域取得了巨大成功,但也面临着计算复杂性和模型尺寸庞大的问题。Xception通过引入深度可分离卷积来解决这些问题。 深度可分离卷积由分离卷积和逐点卷积两个步骤组成。首先,分离卷积将输入张量分别应用于空间和通道维度上的低秩张量。通过这种方式,模型可以分别学习特征的空间位置和通道之间的依赖关系。其次,逐点卷积将通道维度上的低秩张量应用于输出特征图。逐点卷积允许每个通道单独学习特征。 通过使用深度可分离卷积,Xception减少了参数的数量,并提高了模型的计算效率。与传统卷积相比,深度可分离卷积在减少计算量的同时,还可以提高模型的表示能力。这意味着Xception可以更好地捕捉和表示输入数据中的特征。 在实践中,Xception在图像分类、目标检测和语义分割等任务上都取得了非常好的表现。由于其较小的模型尺寸和高效的计算性能,Xception成为了很多研究者和工程师首选的深度学习架构之一。 总而言之,Xception通过引入深度可分离卷积来解决深度学习中的计算复杂性和模型尺寸庞大的问题。它减少了模型参数的数量、提高了模型的计算效率,同时又保持了较高的表示能力。作为一种强大的深度学习架构,Xception在多个领域具有广泛的应用和研究价值。 ### 回答3: Xception是一种深度学习模型,使用深度可分离卷积的方法来提高模型的准确性和效率。深度可分离卷积是一种卷积操作,由分离卷积和逐元素卷积两个步骤组成。 在传统卷积中,输入图像通过一个卷积核进行卷积操作,得到特征图。而在深度可分离卷积中,卷积操作被分解成两个步骤。首先,输入图像通过一个分离卷积核进行深度卷积,从而获取特征深度信息。然后,逐元素卷积操作被应用于分离卷积的输出,以获取空间信息。这种分离的方式减少了计算量和参数量,提高了模型的效率。 Xception模型使用了这种深度可分离卷积的结构。相比于传统的卷积方式,Xception模型能够更好地捕捉到输入图像中的细节信息。同时,由于深度卷积和逐元素卷积的分离,Xception模型的参数量大大减少,使得模型更加轻量化,便于在移动设备等资源受限的场景中应用。 通过对ImageNet大规模图像数据库进行训练,Xception模型取得了很好的性能。它在图像分类、目标检测和语义分割等任务上都取得了优秀的结果。同时,Xception模型也为其他相关任务,如迁移学习和特征提取等,提供了一个有力的基础。 总的来说,Xception是一种利用深度可分离卷积的深度学习模型,它在提高准确性和效率方面取得了显著的进展。它的设计和性能使得它成为了计算机视觉领域一个重要的技术突破。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值