【无标题】

最新推荐文章于 2025-04-26 19:32:25 发布

Karry D

最新推荐文章于 2025-04-26 19:32:25 发布

阅读量1.1k

点赞数 28

文章标签：视频水印深度学习

本文链接：https://blog.csdn.net/m0_52474147/article/details/142464882

版权

深度学习越来越多地被应用于鲁棒性水印领域。然而，现有的基于深度学习的视频水印方法仅使用空间域信息作为输入，对H.264 / AVC压缩等攻击的鲁棒性仍然不强。因此，本文提出了一种基于深度学习的双树复小波变换( DT-CWT )域鲁棒视频水印方法。将视频帧变换到DT - CWT域，选择合适的高通子带作为候选嵌入位置。然后，结合2D和3D卷积提取帧内空间特征和帧间时间特征，在候选位置中找到用于水印嵌入的稳定且不可感知的系数。其中此外，在攻击层，本文专门设计了一个用于模拟不可微H.264 / AVC压缩的可微代理，用于生成失真水印视频，以提高对不同攻击的鲁棒性。实验结果表明，我们的方法在保持较高视频质量的同时，对空间和时间攻击的鲁棒性优于现有的基于深度学习的方法和传统方法。

        视频因其所传达信息的丰富性，成为当今社交媒体中最受欢迎的信息传播媒介[ 1 ]。然而，盗用、篡改和非法分发版权视频已经成为一个亟待解决的问题。因此，许多视频水印方法被提出用于版权声明、篡改检测和溯源[ 6、30、35、40、41]。特别地，鲁棒视频水印已成为保护视频版权信息的重要技术。它的主要任务是使含水印的视频即使在受到攻击后也能提取出可声明的版权信息，同时保持含水印视频的质量。水印的不可见性和鲁棒性是相互排斥的，这对于鲁棒的视频水印来说是一个不断的挑战。

        现有的鲁棒视频水印方法包括传统水印和基于深度学习的水印。传统的方法也分为空间域水印、频率域水印和压缩域水印[ 2 ]。由于空间域水印方法[ 7、13 ]的不可见性较差，对压缩和几何攻击不具有鲁棒性，因此目前很少有研究者在空间域探索鲁棒的视频水印方法。对于压缩域水印，水印被嵌入到标准编码器的编码比特流中，如MPEG - 2 [ 8 ]，MPEG-4 [ 9 ]，H.264 / AVC [ 27、28、32]，H.265 / HEVC [ 19、33 ]。由于算法设计需要基于视频的编码方式，这类方法受限于视频编码器本身，对转码攻击不具有鲁棒性。频域水印方法通过修改视频帧的频率系数来嵌入水印。既然这样的方法就有由于对压缩和几何攻击具有良好的鲁棒性，越来越多的变换被用于鲁棒视频水印，如离散余弦变换( DCT ) [ 14、15、22、36 ]、离散小波变换( DWT ) [ 10、24、38 ]和双树复小波变换( DT-CWT ) [ 3、4、16、20]。特别地，DT-CWT [ 23 ]由于其完美重构、平移不变性和良好的方向选择性[ 16 ]，是一个很好的选择。虽然目前基于DT - CWT的水印算法在水印的不可见性和抵抗几何攻击和压缩攻击的鲁棒性之间取得了较好的平衡，但仍有一些问题需要考虑。没有充分考虑帧间丰富的时序特征进行水印嵌入。此外，由于不同类型的攻击需要设计不同的技术来抵御，上述传统方法通常不能同时对某些攻击具有鲁棒性。

        近年来，随着深度学习和计算机设备的快速发展，深度学习也被成功应用于鲁棒性视频水印[ 25、39 ]。在这些工作中，训练网络模型，在视频帧中找到合适的区域进行嵌入，并模拟各种攻击并参与训练过程，以对这些攻击具有鲁棒性。具体来说，Zhang等人[ 39 ]在编解码模型中提出了一个注意力掩码来嵌入二进制水印比特，它允许模型根据视频帧的内容关注不同的比特。该方法在水印不可见性和抵抗MJPEG压缩和裁剪攻击方面取得了较好的性能，但在目前流行的H.264压缩攻击和缩放攻击中表现不佳。Luo等[ 25 ]提出了一种新的由多尺度设计组成的编解码模型，通过对可微失真的可微失真层和不可微失真的可微代理(例如,视频压缩)来模拟各种失真。但是，对几何攻击和H.264压缩攻击的鲁棒性还有待提高。因此，现有的基于深度学习的方法虽然考虑了帧间的时间信息，但都是以空间域信息作为输入，对攻击的鲁棒性仍然不强。

        针对上述问题，提出了一种DT - CWT域深度神经网络( deep neural network，DNN )鲁棒视频水印算法。该方法训练了一个基于端到端的深度学习网络的编解码器，允许编码器修改视频帧的DT - CWT系数进行水印嵌入，解码器从DT - CWT系数中提取水印。我们的主要贡献总结如下：

        ( 1 )提出了一种基于DNN的DT - CWT域视频鲁棒水印方法。通过端到端的DNN训练，选择合适的视频帧DT - CWT系数进行冗余二值图像水印嵌入，从而在鲁棒性和不可见性之间取得良好的平衡；

        ( 2 )专门设计了一个可微代理，用于模拟不可微的H.264压缩攻击，从而实现了对H.264压缩的强鲁棒性；

        ( 3 )将3D卷积与2D卷积相结合，提取帧间时间特征和帧内空间特征，寻找稳定且不可感知的系数用于水印嵌入。

        本文其余部分的结构安排如下：第二部分介绍了DT - CWT和3D卷积的定义。我们提出的方法在第3节中描述。实验结果与分析见第4节。第五部分给出了本文的结论和未来的工作。

        本部分将介绍我们方法中所使用的一些现有技术。

        DT-CWT [ 23 ]是DWT的一种变体，它用两个滤波树代替一个滤波树。它具有完美重构、近似平移不变性、良好的方向选择性、有限的冗余性和高效的顺序计算等特性[ 16 ]。它不像DWT那样产生3个输出的高通子带，而是产生6个，大致表示为15、45、75、105、135和165度小波。除此之外，6个高通子带都有实部和虚部输出，并且这两个输出是相互正交的。下面描述DT - CWT如何对视频帧进行2层分解。如图1所示，DT - CWT将输入视频帧分解为6个无方向性的高通子带和1个低通子带。将1层DT - CWT分解的6个高通子带记为UH 1，d，其中d为输入维数，d = 1，2，3，4，5，6。其中U1H，d的大小为原始视频帧的一半，低通子带的大小与原始视频帧相同。对上一步分解得到的低通子带进行2层DT - CWT分解，再次得到6个高通子带U2H、d和1个低通子带UL。此时UH 2，d的尺寸又减小了一半，UL的尺寸也减小了一半。

        3D卷积常用于视频分类、动作识别等任务。与2D卷积在空间维度上只在两个方向上操作不同，3D卷积在三个方向上移动，其中两个在空间维度上，另一个在时间维度上。这就是3D卷积除了利用帧间空间特征外，还很好地利用了帧内时间特征的原因。图2描述了3D卷积的过程，其中输入特征和3D卷积核的时间维度分别为T和t。3D卷积核在t个时间维度的输入特征上进行空间特征的提取，得到一个时间维度的结果。由于输出是由t个时间维度的输入特征同时卷积生成的，因此它同时包含了空间特征和时间特征。

        提出了一种利用深度学习在视频帧的DT - CWT频域嵌入二值图像水印的不可见鲁棒视频水印方法。之所以使用DT - CWT，是因为DT - CWT具有完美的重构性、良好的方向选择性和近似的平移不变性[ 16 ]，这使得它可以用于产生水印，即使水印载体经历了广泛的几何失真，也可以提取水印，并且在[ 3、4、16、20]中显示了其优于其他变换的鲁棒性视频水印。此外，为了使模型具有鲁棒性针对攻击和水印不可见的情况，我们不仅设计了攻击层，还通过3D卷积和2D卷积相结合的方式，提取视频帧间的时间特征和视频帧内的空间特征，找到稳定且不易被察觉的频率系数进行水印嵌入。此外，为了使嵌入的水印不局限于特定的数据集，在训练过程中水印是一些随机的二值图像。如图3所示，我们的模型由三个部分组成：编码器E，解码器D和攻击层A。

编码器

如图4所示，编码器E包括预处理模块、时空特征提取模块( STFEM )、密集特征融合模块( DFFM )、注意力模块( AM )、降维模块( DRM )和后处理模块。将封面视频Vin和水印Win通过上述模块得到含水印视频Vw。首先，U通道Uin i的每一帧Vin i的T个采样视频帧和Win经过预处理模块。接下来，DFFM和DRM模块将每一帧的时空特征和预处理后的水印进行融合，得到水印残差Wri。此外，针对水印的不可见性，还将时空特征作为AM的输入，得到注意力掩膜Mi，与Wr i相乘，得到含水印视频。整个嵌入过程可以表示为：

式中，Post (⋅)和PreE (⋅)分别为编码器中的后处理和预处理模块，Yin i和ut V in i分别为Vin i的Y通道和V通道，α为嵌入强度因子，用于控制鲁棒性和不可见性之间的权衡。

        预处理：对于封面视频，由于修改低频分量会有较低的不可见性，因此选择相对高频分量进行水印嵌入。此外，由于视频压缩首先丢弃1级DT - CWT上的高通子带系数，随着压缩比的增加逐渐丢弃n级( n > 1 ) DT - CWT上的系数[ 4 ]，因此n级( n > 1 )高通子带中的系数比1级中的系数更不容易被损坏。并且，对于低分辨率视频，在过高级别的高通子带中存在系数不足的情况。因此，我们使用二级DT - CWT变换对Uin i进行分解，并选择第二级的高通子带进行水印嵌入。此外，由于第1和第3高通子带分别与第6和第4高通子带具有较高的相关性[ 20 ]，利用这些相关性，只选择第1和第3高通子带作为候选嵌入子带，以避免过多的冗余嵌入导致较差的视觉质量。因此，过程PreE (⋅)可以表示为：

        对于水印，现有的基于深度学习的视频水印方法[ 25、39 ]主要是嵌入比特流。为了使水印的有效载荷大且有意义，本文采用大小为Hw × Ww的二值图像作为水印。此外，对分辨率为Hc × Wc的载体视频进行空间拷贝，实现冗余嵌入。该过程可以表示为：

        STFEM：该模块用于从Uin H 2，d，i中提取丰富的空间和时间特征，有助于后续模块嵌入水印。它具有一个核大小为( 3、3)的2D卷积和一个核大小为( 3、7、7)的3D卷积。前者在空间维度上提取特征，具有32个输出通道。后者在时间维度上提取特征，有64个通道的输出。上述卷积操作通过使用填充来保持输入和输出的空间维度，并且可以用：



        DFFM：该模块包括三个密集块。密集块之间的密集连接在重新学习以前特征的同时学习新的特征，并带来两个好处：( 1 )促使Fst和Wpin之间的融合；( 2 )显著抑制梯度消失，避免模型退化。在DFFM中，STFEM模块的输出Fst与Wpin级联作为第一个密集块的输入，该密集块具有129个输出通道。第二块和第三块以前一块的输入和输出作为输入，分别产生194和259个通道的输出。为了增强水印的鲁棒性，还将Wpin与第二块和第三块的输入进行级联。通过这种方式，密集块可以在不同级别的特征上学习不同的水印模式。值得注意的是，第三个稠密块输出的特征与前一个稠密块的输入和输出没有级联，旨在减少特征通道的数量，从而降低计算成本。最终得到带有水印信息Fw的特征为：



        DRM：DRM通过多次卷积来降低Fw的维度，输出水印残差Wri。DRM由4个3D卷积层组成，通道数分别为128、64、32、2，并进一步融合了水印信息和时空特征。水印残差Wri计算为：



        AM：针对含水印视频的质量，利用卷积注意力模块( CBAM )从Fst中获取注意力掩膜Mi。然后，与方程中的嵌入强度α不同. ( 1 )对于水印残差中的所有像素，由时空特征引导的Mi对像素执行不同的权重，以进一步调整水印信息在水印残差Wri中的分布和修改量。AM由具有3个卷积层的瓶颈( BTN )、空间注意力模块( SAM )和通道注意力模块( CAM )组成。特别地，将原CBAM中所有的2D卷积改为3D卷积，使其能够考虑到时间信息。注意力掩码Mi被计算为：



        后处理：将Uin H 2，d，i，d = 1，3替换为嵌入水印后的两个高通子带。然后，通过IDT - CWT变换得到嵌入水印的U通道Uw i：

攻击层

        传统方法往往需要人工设计针对特定攻击的水印嵌入过程，难以同时实现对大范围攻击的鲁棒性。借助深度学习，可以在编码器和解码器之间增加一个攻击层。在训练阶段，编码器生成的含水印视频Vw经过攻击层生成失真含水印视频Vd，并将其送入解码器进行水印提取。随着训练的进行，编码器逐渐将水印嵌入到对攻击具有鲁棒性的区域中，解码器能够从这些区域中提取水印信息。图4的七种类型攻击为：H.264压缩、剪切、缩放、高斯模糊、高斯噪声、帧删除和帧交换。

        H.264压缩：H.264是目前在互联网上进行数字视频分发最常用的压缩方法。H.264的优点是它的高数据压缩比由恒定的速率因子( crf∈R )控制。由于H.264压缩过程是不可微的，因此设计了一个基于U - Net的可微网络来模拟H.264压缩攻击。如图5所示，网络根据输入视频帧生成残差RH.264，将残差与其对应的输入帧求和得到输出视频帧。通过最小化L2损失，输出的视频帧在像素级别上接近于真实的H.264压缩视频帧，其中crf = x，x∈[ 0、51 ]。值得注意的是，对模拟网络进行预训练，在编码器和解码器的训练过程中冻结网络中的参数。

        裁剪：裁剪是一种常见的破坏视频水印的攻击手段。在我们的攻击层中，剪切只输出视频帧的随机部分作为解码器的输入。被裁剪的视频帧所占的比例被定义为裁剪。

        缩放：作为破坏视频水印的常见攻击，缩放是通过上采样和下采样拉伸含水印视频的高度和宽度来完成的。高度和宽度的比例缩放被描述为因子。

        高斯模糊：高斯模糊是图像处理中的一种常用技术，也可以应用于视频帧中，以减少视频帧中的噪声和模糊细节。它还可以破坏嵌入在视频帧中的水印。高斯模糊通过卷积操作实现，其中高斯核被用作权重。

        高斯噪声：高斯噪声是指概率密度函数服从高斯分布的一类噪声。它是通过将生成的高斯噪声添加到视频帧中形成的。

        帧删除：删除视频帧是一种破坏视频时间维度信息的攻击。我们的攻击层在随机位置删除一个随机数的视频帧。删除的帧数用del表示。

        帧交换：对原始视频帧的顺序进行切换，也会破坏时间维度上的信息。成对未洗牌随机选取视频帧并对其位置进行互换，完成帧互换攻击。不在原位置的帧数表示为互换。

针对H.264压缩的模拟网络结构

解码层

         如图6所示，解码器D将T个采样的失真视频帧的每一帧Vdi的U通道Uid作为输入，输出一个解码的水印Wout。为了更准确地恢复水印，在解码器中设计了预处理模块、与编码器中相同的STFEM、密集特征提取模块( DFEM )和特征自适应平均池化模块( FAAP )。预处理模块用于获取Uid在2层DT - CWT上的高通子带，并将选取的高通子带送入STFEM以提取时空特征。接下来，DFEM和FAAP从STFEM的输出中提取水印。水印的提取可以用表达式来表示：

        预处理：将U通道Ud H 2，( 1、3 )的2层DT - CWT变换中的第1、3高通子带与第4、6高通子带Ud H 2，( 4、6 )进行相关。因此，当Ud H2，( 1、3 )被修改时，Ud H2，( 4、6 )在下一次的DT - CWT变换中也会有规律的变化。虽然在Ud H 2，( 1、3 )上嵌入了水印，但是在Ud H 2，( 1、3、4、6)上进行了提取，因为这些级联的修改为可学习网络提供了更多提取水印的特征，提高了对攻击的鲁棒性。过程PreD (⋅)可以表示为：

        DFEM：DFEM与编码器中的DFFM一样具有三个密集块，但其功能是组合不同级别的特征用于基于评论的特征提取。在DFEM中，从STFEM中Ud H 2，s，i得到的时空特征中提取具有水印信息的特征。

        FAAP：除了使用类似DRM的4层3D卷积来减少特征通道外，在每一层之后应用3D自适应平均池化，逐步将特征的时间维度降低到1，聚合了分布在帧之间的水印信息。随着编解码器的训练，聚合的特征，称为Wpout，逐渐与Wpin接近。也就是说，Wpout包含多个恢复水印W '。最终提取的水印Wout是通过对Wpout中的多个W '进行累加平均得到的。这个计算过程可以用表达式来表示：

损失函数

质量损失LQ和水印损失LW分别用于控制生成水印视频的质量和提取水印的精度。在这两个损失函数的控制下，我们的端到端编解码器将生成带水印的视频，即接近原始视频，并提取接近输入水印的水印。因此，LQ和LW均为L2损失函数。

        在训练和验证阶段，实验选取包含2 500个短视频片段的Hollywood2数据库[ 29 ]作为封面视频数据集。在2500个视频中，2200个视频用于训练，300个视频用于验证。水印为2，500幅大小为32 × 32的随机二值图像。我们在每个视频中随机采样9个连续的( T = 9)帧，并将其缩放到512 × 512进行训练和验证。攻击层中7种攻击的参数设置如下：( a ) crf = 28；( b )因子∈R，取值范围为0.6 ~ 1.4；( c ) Crop∈R，取值范围为0.0 ~ 0.6；( d ) del选自{ 0，1，2，3，4，4，5 }；( e )交换选自{ 2，4 }；( f ) Kernel _ Size = 3 × 3；( g ) σ = 0.04。在训练和验证过程中，每个批次从攻击层中随机选择一个攻击，攻击的强度也在给定的范围内随机选择。嵌入强度α设置为1.1，Ltotal中的超参数c设置为1.5。

        在测试阶段，本文进行了三种类型的测试：水印不可见性和鲁棒性评估，提出的模型与现有的一些模型进行了对比实验，并对提出的模型进行了消融实验。对于第一类和第三类的设置，为了评估所提方法的泛化能力，选取DVMark [ 25 ]工作中使用的Kinetics 600验证集[ 17 ]中随机选取的500个视频作为封面视频进行跨数据集测试。将视频缩放为四种不同的分辨率，以证明我们的方法不受视频分辨率的限制。为了使嵌入的水印具有意义，采用500个大小为32 × 32的二进制QR码作为水印，使水印能够携带QR码扫描工具可以扫描的各种信息。此外，QR码的纠错能力使得提取的水印即使在有一定误差的情况下水印提取不完全也能被识别。对于第二种类型的设置，由于对比实验考虑了三种类型的方法，不同类型的设置也不同，因此在接下来的第4节中描述了每种类型的设置。E。

        所提出的网络和所有的实验都是在24GB精视RTX 3090，3.80Ghz i7-10700KF CPU和32GB RAM上运行的。

估值指标

本文采用峰值信噪比( PSNR )和结构相似度( SSIM )对生成的含水印视频进行质量评价。此外，提取水印的正确率( ACC )和识别率( REC )用于评估对不同攻击的鲁棒性。

给定大小为Hc × Wc的第k个视频帧xk及其对应的含水印视频帧yk，则第k帧的均方误差( MSE )定义为：

        这里，虽然在训练阶段考虑了512 × 512的分辨率，但是考虑了4种不同分辨率的测试视频。此外，4种不同分辨率的视频均嵌入了大小为32 × 32的二值QR码水印，保证了相同的载荷。为此，在( 3 )中所示的空间重复操作中，嵌入在高分辨率视频中的水印被复制更多次，以获得更多的冗余复制水印。表1显示了当净荷相同时，不同分辨率的载体视频与其对应的含水印视频之间的PSNR和SSIM。图7给出了在512 × 512分辨率下，嵌入水印的视频帧的一些例子及其相应的差异。从图7中的差异可以看出，我们的模型使得水印的嵌入位置能够充分靠近视频帧中纹理丰富的区域，实现了更好的视觉质量。

        由表1可知，所提模型得到的含水印视频在不同分辨率下均具有较好的不可见性。这主要归因于两个方面：( a )水印嵌入在视频帧的高频DT - CWT分量中，而不是空间域和低频分量；( b )使用了3D卷积和注意力模块。在STFEM中，3D卷积用于从帧内特征中提取帧间时间特征，并允许水印与DFFM中的时空特征融合。注意力模块可以从时空特征中学习得到注意力掩码，进一步调整水印信息在水印残差Wri中的分布和修改量。

        还可以观察到，视频帧分辨率越大，获得的PSNRs / SSIMs越高。这是由于对于相同的有效载荷，在更大的分辨率下可以获得更合适的嵌入位置。

由表1可知，所提模型得到的含水印视频在不同分辨率下均具有较好的不可见性。这主要归因于两个方面：( a )水印嵌入在视频帧的高频DT - CWT分量中，而不是空间域和低频分量；( b )使用了3D卷积和注意力模块。在STFEM中，3D卷积用于从帧内特征中提取帧间时间特征，并允许水印与DFFM中的时空特征融合。注意力模块可以从时空特征中学习得到注意力掩码，进一步调整水印信息在水印残差Wri中的分布和修改量。

还可以观察到，视频帧分辨率越大，获得的PSNRs / SSIMs越高。这是由于对于相同的有效载荷，在更大的分辨率下可以获得更合适的嵌入位置。

        为了展示对攻击的鲁棒性，实验中考虑了攻击层模拟的H.264压缩、剪切、缩放、高斯模糊、高斯噪声、帧删除和帧交换7种攻击，以及攻击层未模拟的2种常见转码攻击( MPEG - 4和H.265压缩)。值得注意的是，训练中未设置的参数也进行了测试，如H.264压缩的crf = 26、30、32和34，缩放的factor = 0.4和2.0，帧删除的del = 7和8，高斯模糊的kernel _ size = 5 × 5、7 × 7、9 × 9和11 × 11，以及σ = 0.03、0.05、1和2。对于高斯噪声攻击，0.06和0.07。此外，由于测试阶段的水印为QR码，因此根据QR码的特性对提取的QR码进行校正。QR码在三个角落有三个固定的Finder模式：左上角、左下角和右上角。Finder图案是黑白颜色交替的矩形框，图案周围的像素值应为1 (白色)。因此，我们通过主动将图案周围的像素值设置为1，并根据固定的图案将图案中的像素值修正为0或1来对提取的QR码进行校正。为了说明这种修正的改进，裁剪攻击修正前后的结果在表2中给出。

        在表2中可以观察到：( a )我们的模型对裁剪攻击具有很好的鲁棒性。即使超过一半的视频帧(作物≥0.5)被裁剪，我们的模型仍然能够提取出具有较高ACC的水印。这是由于我们的水印冗余方法和深度学习。此外，由于QR码具有容错机制，对于ACC高于99 %的情况，REC为100 %；( b )纠正性操作确实可以提高绩效。因此，本小节以下所有实验结果均为修正后的情况。

        表3还给出了其他6种不同级别攻击下的结果。表3的结果表明，当训练阶段的攻击层只考虑H.264压缩的参数crf = 28，缩放的参数factor在0.6 ~ 1.4之间，帧删除的参数del在{ 0，1，2，3，4，5 }之间，帧交换的参数swap在{ 2，4 }之间，高斯模糊的参数kernel _ size = 3 × 3，高斯噪声的参数σ = 0.04时，模型在不同级别上都取得了较高的ACC和RECs。其共同原因在于：( a )训练时在攻击层考虑了7种攻击类型，使得编解码器能够学习每种攻击类型的特征，并对其具有鲁棒性；( b )所提出的方法有效地结合了帧内和帧间信息用于水印( c )第1和第6高通子带之间以及第3和第4高通子带之间的强相关性使得解码器可以从更多的信息中提取水印。此外，对缩放攻击的强鲁棒性也归功于DT - CWT的近似平移不变性[ 16 ]。在H.264压缩方面，我们的模型中的水印是通过修改相对高级的高频系数来嵌入的，这些高频系数不容易受到视频压缩的影响。

        由于视频也会存在于MPEG - 4和H.265格式中，视频可能会受到转码攻击，因此使用FFmpeg命令对H.264水印视频进行攻击，将其转码到MPEG - 4和H.265格式。表4中的结果表明，尽管这些攻击没有在攻击层进行模拟，但该模型仍然对这些转码攻击具有鲁棒性。这也是因为我们的方法中的水印是嵌入在相对高层的高频位置。

与基于深度学习的视频水印方法的比较：这里考虑了三个最近的工作RivaGAN [ 39 ]，DVMark [ 25 ]和REVMark [ 42 ]。值得注意的是：( a ) DVMark测试中的设置用于重置攻击层参数，即H.264 ( crf = 22 )，帧平均( N = 3)，帧丢弃( p = 0.5)，帧交换( p = 0.5)，高斯模糊( σ = 2.0)，高斯噪声(标准误std = 0.05)，随机裁剪( 0.4 )和随机色调( 1.0 )。然后，我们重新训练我们的模型，RivaGAN和REVMark；( b )将RivaGAN、REVMark和我们的模型在Hollywood2数据库上进行训练，并在DVMark工作中使用的测试集上进行测试；( c )由于DVMark中的有效载荷为96，RivaGAN和REVMark中的有效载荷也设置为96，我们的方法只使用嵌入水印的前96个像素来计算ACC。表5和图8给出了对比结果。可见，除随机色调攻击外，所提方法在水印不可见性和鲁棒性方面均优于其他三种模型RivaGAN、DVMark和REVMark。主要原因如下：( a )在不可见性方面，RivaGAN和DVMark的水印冗余方法在空间维度上重复嵌入水印，因此它们的嵌入冗余高于第3部分的方法。A. REVMark编码器以U - Net为骨干。然而，U - Net中用于上采样的转置卷积往往会导致水印残差中出现棋盘格伪影[ 43 ]；( b )在鲁棒性方面，我们的方法将水印嵌入到从频域提取的特征中，而RivaGAN、DVMark和REVMark则将其嵌入到从空间信息提取的特征中；( c )由于我们的方法在视频帧的U通道上嵌入水印，并且在嵌入过程中没有考虑到颜色通道之间的相关性，所以它对随机色调攻击不具有鲁棒性。

针对我们方法中使用的3D卷积、注意力模块和频域嵌入的效果进行了以下消融实验。值得注意的是：( a )在消融3D卷积时，使用3D卷积的网络中的所有模块都改为使用2D卷积；( b )在去除DT - CWT频域嵌入时，直接利用视频帧的U通道嵌入水印；( c )在去除注意力模块时，去除注意力模块。表6给出了烧蚀实验结果。

可以发现：( a )从Case 1、Case 2和Case 3的对比中可以发现，3D卷积和注意力模块确实对提高水印不可见性有显著效果。3D卷积允许水印信息的分布不仅基于帧内空间特征，而且基于帧间时间特征。此外，注意力模块进一步调整修改在水印残差中的分布和修改量；( b )从Case 4和Proposal的比较来看，在DT - CWT频域上嵌入水印使得模型对视频压缩和帧缩放攻击具有更强的鲁棒性。主要原因在于：( i )在DT - CWT频域的嵌入是在对压缩攻击不太敏感的2级DT - CWT高通子带上进行的；( ii ) DT - CWT具有完美的重构性、良好的方向选择性和近似的平移不变性[ 16 ]；( c )从Case 2、Case 3和Case 4的对比来看，3D卷积使得水印的嵌入和提取依赖于帧间时序特征，导致模型对帧删除攻击的鲁棒性较差。

本文提出了一种DT - CWT域的DNN鲁棒视频水印方法。将视频帧变换到DT - CWT域，然后选择合适的高通子带作为候选嵌入位置。为了找到候选位置中稳定且不可感知的系数嵌入水印，将3D卷积与2D卷积相结合，提取帧内空间特征和帧间时间特征。此外，引入攻击层，通过生成失真水印视频进行训练，提高攻击鲁棒性。实验结果表明，与现有的基于深度学习的水印方法和传统的水印方法相比，我们的方法在保持视频质量的同时，对攻击具有更强的鲁棒性。未来，我们将探索不同视频压缩算法之间的共性，进而提高对转码攻击的鲁棒性。