（2023，DiffWA & 水印 & 攻击）DiffWA：用于水印攻击的扩散模型

EDPJ，公众号（EDPJ）

已于 2023-09-08 16:21:34 修改

阅读量1.7k

点赞数 1

分类专栏：论文笔记文章标签：人工智能

于 2023-09-08 16:21:24 首次发布

本文链接：https://blog.csdn.net/qq_44681809/article/details/132725666

版权

论文笔记专栏收录该内容

356 篇文章

订阅专栏

DiffWA: Diffusion Models for Watermark Attack

公众号：EDPJ（添加 VX：CV_EDPJ 进交流群获取资料）

0. 摘要

随着深度神经网络（DNN）的快速发展，许多鲁棒的盲水印算法和框架被提出并取得了良好的效果。目前水印攻击算法还无法与水印添加算法竞争。而很多水印攻击算法只关心干扰水印的正常去除，水印攻击会给图像造成很大的视觉损失。为此，我们提出了 DiffWA，一种用于水印攻击的具有距离引导的条件扩散模型，它可以在去除嵌入水印的同时恢复图像。我们方法的核心是在无水印图像上训练图像到图像的条件扩散模型，并在采样时使用距离引导来指导条件模型，以便模型生成与原始图像相似的无水印图像。我们使用我们提出的模型在 CIFAR-10 上进行了实验。结果表明，该模型能够取得良好的水印去除效果，使水印提取误码率高于 0.4。同时，攻击图像与原始图像相比仍保持良好的视觉效果，PSNR 大于 31，SSIM 大于 0.97。

1. 简介

盲水印是一种不可见的图像水印，可用于版权保护 [13, 29]。随着 DNN 的发展，盲水印技术取得了长足的进步。 2018 年，Zhu 等人 [30] 提出了一种名为 HiDDeN 的水印架构，这是第一个端到端水印框架。同样在 2018 年，Ahmadi 等人提出了差分水印算法框架（ReDMark）[1]。 2020年，Hao 等人 [6] 完成了基于生成对抗网络的水印任务。同样是在 2020 年，Lee 等人 [10] 提出了一种没有任何分辨率依赖层或组件的水印网络来完成水印任务。

在水印攻击方面，研究人员通过各种方式攻击添加到图像中的水印，试图使嵌入在图像中的水印无法被正确提取。 2018年，Quiring 等人提出了一种基于对抗学习的数字水印黑盒攻击方法 [17]。 2020年，Nam等人 [14] 提出了一种名为 WAN（水印攻击网络）的网络来进行水印攻击。通过向网络引入残余密集块，他们允许所提出的模型识别图像的局部和全局特征以去除水印。Geng 等人 [4] 提出了一种针对鲁棒水印算法的基于 CNN 的实时攻击方法，该方法能够在没有任何先验知识的情况下对图像进行预处理并破坏水印提取。

近年来，盲水印的研究通常集中在水印添加上，旨在提高所提出的水印算法的鲁棒性以保护版权。有些水印算法面对现有的一些水印攻击能够以很低的误码率甚至无损地恢复出水印信息，这说明水印攻击算法已经不能满足水印算法的要求。为了提高水印模型在模拟攻击中的性能，需要提出新的水印攻击算法。

受图像生成扩散模型成功的启发，我们建议将扩散模型引入水印攻击领域。与生成对抗网络 [5] 等其他生成模型不同，扩散模型定义了一个推理过程，用于从随机噪声中对图像进行去噪。对于去噪扩散概率模型（Denoising Diffusion Probabilistic Models，DDPM）[8]，该过程基于马尔可夫链，而对于去噪扩散隐式模型（Denoising Diffusion Implicit Models，DDIM）[22]，该过程是非马尔可夫的。近年来，扩散在图像编辑 [12, 2]、图像修复 [11, 18]、超分辨率 [20, 25] 等方面得到了广泛的应用。很自然地想到使用扩散模型的推理过程来去除水印。此外，Dhariwal & Nichol [3] 和 Saharia 等人 [20] 提出了引导扩散模型和条件扩散模型，使扩散模型生成的图像满足一定要求。对于水印攻击，引导扩散模型和条件扩散模型将使水印攻击后的图像与原始图像保持较高的相似度。

因此，本文提出使用距离引导的条件扩散模型 DiffWA 来完成水印攻击的任务。我们首先使用原始图像训练扩散模型。然后在推理过程的每个步骤中，将通过距离度量来测量生成的图像和水印图像之间的距离，以引导重建图像与水印图像相似，然后与原始图像相似。同时，由于生成的图像是在有水印图像的情况下生成的，并且模型是在无水印图像上训练的，因此重建的图像将更接近原始图像并且没有水印。此外，我们提出了一种使用估计器加速推理过程的可能方法，并尝试结合两种水印攻击模型以获得更好的水印去除效果。本文采用 HiDDeN 作为受攻击水印方案，并在 CIFAR-10 数据集上测试结果 [9]。结果表明，所提方法提取水印的误码率约为 0.4、最高可达0.48的情况下实现水印去除。同时，生成的图像与原始图像具有很高的相似度，PSNR（峰值信噪比）约为31，SSIM（结构相似度）[27] 约为 0.97。

2. 背景

2.1 HiDDeN

受到 DNN 对输入图像中小扰动的敏感性的启发，Zhu 等人 [30] 在 2018 年提出了第一个用于盲水印添加的端到端神经网络，名为 HiDDeN。 HiDDeN 由编码器、解码器和鉴别器三部分组成。编码器的输入是原始图像和一串消息，它将输出编码图像。解码器接收编码图像，并将编码图像中加密的消息重构。鉴别器的目的是确定图像是否是由编码器用消息加密的，它扮演了对抗的角色，最终会被编码器欺骗。在训练网络时，编码器和解码器联合训练，解码器将输入编码图像和失真编码图像（经过噪声层后的编码图像）进行训练，以使水印对各种噪声具有鲁棒性。结果表明，该模型在鲁棒水印方面具有根本优势，编码图像能够抵抗各种水印攻击，如高斯模糊、JPEG 压缩等。

2.2 去噪扩散模型

受非平衡热力学 [21] 的启发，提出了去噪扩散模型。在这些模型的扩散过程中，图像中会添加随机噪声，从而将真实数据分布改变为易于处理的高斯分布。在推理过程中，模型将反转扩散过程并学习如何去除添加到图像中的噪声。最后，该模型将能够从随机选择的噪声中生成图像，并且通过一些适当的指导，该模型可以生成一些满足特定需求的图像。

DDPM。2020 年，Ho 等人 [8] 提出了扩散去噪概率模型（DDPM）。 DDPM 的扩散过程是一个马尔可夫过程，使得噪声逐渐添加到原始图像中。令 x_0 ∼ p_data，潜在变量 x_1，..., x_T 可以通过以下公式计算：

其中 β_t 是预定义的小的正常数。根据 Ho 等人的说法，我们定义 α_t = 1 − β_t，

我们有

因此，当 T 足够大时，x_t 可以通过以下等式进行采样：

DDPM 的推理过程也是一个马尔可夫过程。在此过程中，模型将估计噪声并去除添加到图像中的噪声。设 x_T ∼ N(0, I)，则 x_T 到 x_0 的推理过程可定义为：

均值 μ_θ(x_t, t) 可以通过神经网络学习，方差

可以是取决于时间步长的常数 [8]，也可以通过神经网络学习 [15]。

DDIM。 2021年，Song 等人 [22] 提出的去噪扩散隐式模型（DDIM）。从 x_T ∼ N(0,I) 开始到干净图像 x_0，DDIM 的推理过程是一个确定性的非马尔可夫过程，可以定义为：

其中 ε_θ (x_t, t) 通过由 θ 参数化的神经网络预测。

引导扩散。Dhariwal & Nichol [3] 将自适应组归一化（Adaptive Group Normalization，AdaGN）引入扩散模型，并使用分类器来指导 DDPM 和 DDIM 的推理过程，以提高采样的质量和精度。为了实现这一点，DDPM 的推理过程可以修改为：

其中 μ 和 Σ 是扩散模型

的输出，p_Φ (y|x_t) 是分类器的输出，y 是预测标签，s 是梯度尺度。对于 DDIM，公式 4 中的 ε_θ(x_t, t) 将替换为 ˆε，其定义为：

条件扩散。 2021 年，Saharia 等人提出了一种名为 Palette 的图像到图像扩散框架 [19]。在 Palette 中，神经网络的输入是与条件图像连接的图像，并输出满足特定要求的图像。在该框架的推理过程中，ε_θ(x_t, t) 将被 f_θ(y, x_t, ¯α_t) 替代，其中 y 是条件图像。

3. 提出的方法

3.1 准备工作

HiDDeN分析。本文攻击的水印方案是 HiDDeN [30]。原始图像中添加水印的区域决定了水印攻击模型的具体设计。如果在图像的高频域添加水印，则需要重构图像的高频域并尽可能保留其他域的信息。因此，我们首先分析水印嵌入的区域。首先，我们对编码图像进行哈尔小波分解（Haar wavelet decomposition）。然后，将小波分解后相应的频域信息分别设置为 0，重构消息并测量误码率（BER）。结果如表1所示。

表 1 显示 HiDDeN 依靠各种频率分量来添加水印。最依赖的是 LL 和 HH 部分，其次是 HL 和 LH 部分。考虑到去除某一频率分量后的每个 BER 都较高，水印攻击模型在重建水印图像时应同时重建低频和高频信息。

扩散模型的频率视图。在扩散模型的扩散过程中，高斯噪声将应用于高频和低频的图像。同时，水印也会被破坏。 Yang 等人也证明了这一点 [28]，在扩散的推理过程中，在线性的假设下，图像从低频到高频重建。因此，通过在原始图像上训练扩散模型，我们可以使用扩散模型将图像从低频到高频重建，同时没有水印。

3.2 DiffWA 框架

水印攻击模型在去除水印的同时需要尽可能地恢复原始图像。受引导扩散模型和条件扩散模型的启发，我们提出在推理过程中用距离度量来指导条件扩散模型，这使得模型生成与原始图像或编码图像相似的图像。

Guided DDPM。假设编码图像 x_en = x + δ，其中 x 是原始图像，δ 表示添加到原始图像上的水印。 Wang 等人 [26] 以及聂等人[16] 证明了，在 DDPM 的推理过程中，当均值平移

（其中 Σ 为 x_t 的方差，D 为距离度量（可以是 MSE 或 SSIM），s 为梯度尺度）时，生成的图片 x 可以被引导到与另一张图片 x_en 相似。因此，DDPM的推理过程可以修改为：

其中 μ 和 Σ 是扩散模型

的输出。此外，梯度尺度与时间相关，定义为：

其中 γ 衡量水印的范围，a 是选定的超参数，它取决于距离度量、图像分辨率和扩散模型的采样方法。

Guided DDIM。上述推导只能适用于随机扩散推理过程，不能用于确定性扩散推理过程，如 DDIM [22]。为此，我们采用了 Song 等人提出的基于分数的技巧 [23, 24]。假设我们有一个模型ε_θ，用于去噪，那么它可以用在得分函数中：

在等式 9 中，我们可以用 p_θ 代替 p_θ,Φ，

在这里，我们提出了一个启发式公式来近似概率

最后，我们可以定义 ˆϵ_θ(x_t)，它反映了联合分布：

其中 D 是距离度量，s 是梯度尺度，与上面 Guided DDPM 中的 s 类似。因此，我们可以将原来的 ε_θ 替换为 ˆε_θ，使得 DDIM 能够在推理过程中进行距离引导。

图像到图像条件扩散。 p (x|y) 形式的 Palette [19] 框架被训练来预测条件图像 y 下的 x。类似地，我们的水印攻击模型就是基于这个框架，它可以在条件图像 x_en下预测原始图像x。神经网络 f_θ 在条件图像 x_en 下训练，损失函数为：

在推理过程中，用条件网络 f_θ 代替无条件网络 ε_θ，扩散模型可以在有水印图像的情况下对无水印图像进行采样，从而保证输出图像与原始图像相比具有较高的相似度。总之，算法 1 和算法 2 总结了所提出的使用 DDPM 和 DDIM 进行距离引导的条件扩散采样过程。

这里，我们循环去噪处理 M次，以获得更好的去水印效果，并且对于每次循环的去噪处理，不需要从完整的噪声中采样。我们可以将图像以及水印扭曲到扩散过程的步骤 T_c，这使得水印无效，然后我们只需要在 T_c 步中进行去噪即可获得无水印的图像。另外，可以将 s 设置为 0 以仅让条件扩散起作用，并且可以将条件扩散替换为无条件扩散以仅让距离引导起作用。

3.3 估计器加速

为了加速无水印图像的生成，我们在该模型中引入了估计器。假设 N 是扩散过程中的一个时间步长，与总步数 T 相比较小，x^N 是经过 N 步扩散后的原始图像。在 x_en 条件下，估计器 f_e 用于拟合 x^N 的分布。得到估计器的输出

我们只需对图像

进行 N 步去噪即可获得无水印图像。简单来说，估计器可以是 ResNet[7]。算法 3 显示了使用估计器进行采样。

3.4 组合的方法

为了获得更好的水印去除效果，我们可以使用水印攻击模型对图像进行预处理，将编码图像分布x_en 转变为潜在分布 x_latent。此时，部分水印被去除，预处理后的图像与原始图像没有太大差异。然后我们在 x_latent 分布上训练基于扩散的水印攻击模型。通过该模型，我们可以进一步去除水印并重建与原始图像更相似的图像。预处理可以是提出的水印攻击框架或基于扩散的水印攻击模型。

4. 实验

4.1 HiDDeN

为了评估所提出的方法，我们首先在 CIFAR-10 [9] 训练集上训练 HiDDeN [30] 模型，消息容量度量 BPP（每像素位数）= 0.2。为了提高该水印算法的鲁棒性，我们组合了可用的噪声层，包括 Crop layer（p = 0.035）、Cropout layer（p = 0.3）、Dropout layer（p = 0.3）、Gaussian blur layer 和 JPEG 压缩。为了增强该模型的水印能力和可扩展性，我们引入了残差块 [7]，使模型足够宽和足够深，可以在数据集上进行水印。我们在 RTX3060 上的训练集上对模型进行了 40 个 epoch 的训练，直到在 CIFAR-10 测试集上图像重建损失小于 0.001，消息重建损失小于 0.001。

我们使用 PSNR（峰值信噪比）和 SSIM（结构相似度）[12] 来衡量编码图像与原始图像之间的差异，这显示了编码器的功能，并使用 Bit 精度来衡量解码器重建消息的能力。我们在 CIFAR-10 测试集上使用 PSNR、SSIM 和位精度测试了模型。结果如表 2 所示。

我们还测量了编码图像在几种失真情况下的 Bit 精度，以测试水印的鲁棒性。原始图像和失真图像之间的 PSNR 和 SSIM。结果如表 3 所示。

从表 2 和表 3 可知，我们训练的 HiDDeN 模型具有良好的水印能力，并且水印可以抵抗多种扭曲，这为后续的水印攻击实验奠定了基础。值得注意的是，上述使用的扭曲常常被用作传统水印攻击的手段。结果还表明，传统的水印攻击方法很难对抗 HiDDeN。

4.2 DiffWA 实验

我们的条件模型基于 Saharia 等人 [19] 提出的图像到图像框架 Palette，它删除了 AdaGN [3] 层的类别嵌入。我们在本文中设置总扩散步数 T = 1000。我们在 RTX3060 上以 64 的批量大小训练模型，进行四万次迭代。

为了进行比较，还使用 Dhariwal 和 Nichol[3] 提出的架构来训练无条件模型。该模型也删除了 AdaGN 的类别嵌入。该无条件的训练损失与 Ho 等人 [8] 提出的

相同，其中 ε_θ 表示扩散模型。无条件模型的总扩散步骤和其他训练设置与条件模型相同。

在推理过程中，为了方便起见，我们在等式8中定义了 η = a/γ。为了获得更好的性能，我们为DDPM 和 DDIM 设置循环时间 M = 2。对于每个循环，我们为 DDPM 设置去噪步长 Tc = 200，为 DDIM 设置 Tc = 100。在本实验中，我们将距离度量分别定义为 MSE（均方误差）和 SSIM（结构相似度）。假设图像已标准化为 0 到 1 的范围。当我们使用 MSE 作为距离度量时，对于具有距离引导的条件模型，我们为 DDPM 设置 η = 0.05，为 DDIM 设置 η = -1。对于具有距离引导的无条件模型，我们将 DDPM 设置为 η = 6.25，将 DDIM 设置为 η = −125。当我们使用 SSIM 作为距离度量时，对于具有距离指导的条件模型，我们为 DDPM 设置 η = 255，为 DDIM 设置 η = −25500。对于具有距离引导的无条件模型，我们为 DDPM 设置 η = 63750，为 DDIM 设置 η = −6375000。对于没有距离制导的模型，η 设置为0。

为了衡量水印攻击的效果，我们使用 SSIM 和 PSNR 来衡量给定图像的相似度。我们还评估了干净图像重建消息和原始消息之间的比特精度，以衡量模型的水印攻击能力。表 4 显示了 PSNR 和 SSIM 的结果。表 5 显示了比特精度的结果。

表 4 显示了模型重建图像的能力，表 5 显示了模型的水印攻击能力。从表 4 中可以看出，具有 SSIM 指导的条件 DDIM 采样器表现最佳。而模型的图像重建能力体现在其能够使干净图像与原始图像之间的 PSNR 和 SSIM 高于编码图像与原始图像之间的 PSNR 和 SSIM。表 5 中，无距离引导的条件 DDPM 采样器显示出最好的去水印能力。此外，我们发现距离引导可以提高干净图像和原始图像之间的相似度，同时保留更多的水印信息。因此，需要仔细确定距离引导的范围，以平衡水印消息的相似度和去除率。

η 的选择。图 5 显示了干净图像和原始图像之间的 PSNR 和 SSIM 以及从干净图像中提取的消息的误码率 (BER) 随着 η 的增加而变化。

对于条件 DDPM，当 η 从零增加到大于 0 时，距离引导开始发挥作用，快速增加 PSNR 和 SSIM，这表明距离引导有助于恢复图像。随着 η 的增加，PSNR 和 SSIM 在一定范围内增加，然后略有下降，这可能是因为模型过于依赖距离引导，使得干净图像和编码图像与原始图像相比具有相似的 PSNR 和 SSIM 。此外，BER 随着 η 的增加而降低，这表明距离引导会保留更多消息并削弱水印去除效果的副作用。因此，应该仔细选择超参数 η。根据经验，η 不应该太大，并且应该比较接近 0。

对于无条件 DDPM，随着 η 的增加，PSNR 和 SSIM 单调增加，BER 单调减少。比较条件模型和无条件模型，模型中添加的条件提供了图像恢复和去水印的基本功能。此外，条件的引入降低了模型对 η 选择的敏感性，增强了模型的鲁棒性。

4.3 估计器加速

我们使用没有池化层和全连接层的 ResNet34 [7] 作为我们的估计器，它可以在 N 步扩散后将编码图像映射到原始图像。本实验中我们设置 N = 100，这意味着扩散模型只需要 100 步去噪即可得到最终结果。我们在 RTX3060 上对 CIFAR-10 训练集上的估计器进行了 40 个 epoch 的训练。

这里，为了获得更好的结果，我们在本次实验中仅采用了实验 4.2 中介绍的唯一条件模型和带有距离引导的条件模型。同样，测量了 PSNR、SSIM、比特精度。结果如表 6 和表 7 所示。

表 6 和表 7 显示，尽管使用估计器加速，该模型仍然可以重建原始图像并去除水印，其性能与没有估计器加速的模型相似。

4.4 组合的方法

实验 4.3 中使用 DDIM（第一个模型）的 MSE 引导的加速条件扩散模型的输出分布被选择为x_latent，因为它具有更好的恢复图像的能力。然后我们使用实验 4.2 中描述的训练设置在 x_latent 条件下训练另一个条件扩散模型（第二个模型）。该组合方法的 PSNR、SSIM、比特精度如表 8 所示。

组合方法在实验中给出了最好的水印去除能力。此外，它还可以重建质量相对较高的图像。

5. 结论

本文提出使用距离引导的条件扩散模型进行水印攻击，该模型显示出良好的水印去除和图像恢复能力。同时，通过估计器，我们提出了一种可能的方法来加速这些水印攻击模型的推理过程。此外，还提出了一种组合方法以获得更好的水印去除效果。未来的工作可能集中在如何以更高的保真度恢复图像以及如何加速所提出的方法。此外，我们需要更多的研究来防止这些提出的方法被滥用以侵犯版权。有必要分析哪些水印技术可以抵抗这种攻击。

参考

Li X. DiffWA: Diffusion Models for Watermark Attack[J]. arXiv preprint arXiv:2306.12790, 2023.

S. 总结

S.1 主要思想

目前许多水印攻击算法只关心水印的正常去除，会给图像造成很大的视觉损失。为此，本文提出了 DiffWA，它可以在去除嵌入水印的同时恢复图像。

本文的主要贡献：

提出使用距离引导的条件扩散模型 DiffWA 来完成水印攻击。本方法的核心是在无水印图像上训练图像到图像的条件扩散模型，并在推理过程使用距离引导来指导条件模型，以便模型生成与原始图像相似的无水印图像。
提出了一种使用估计器加速推理过程的可能方法，并尝试结合两种水印攻击模型以获得更好的水印去除效果。