【论文学习】《Source Mixing and Separation Robust Audio Steganography》

最新推荐文章于 2023-12-04 09:47:46 发布

FallenDarkStar

最新推荐文章于 2023-12-04 09:47:46 发布

阅读量1.2k

点赞数

分类专栏：语音伪造语音对抗文章标签：水印语音分离人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42721167/article/details/125836002

版权

语音伪造同时被 2 个专栏收录

32 篇文章 30 订阅

订阅专栏

语音对抗

6 篇文章 5 订阅

订阅专栏

《Source Mixing and Separation Robust Audio Steganography》论文学习

文章目录

《Source Mixing and Separation Robust Audio Steganography》论文学习

摘要

音频隐写技术是通过在载体上进行不易察觉的修改，将秘密信息隐藏在载体音频中。虽然以前的工作解决了隐藏消息恢复对传输过程中引入的失真的鲁棒性，但他们没有解决对侵略性编辑(如混合其他音频源和源分离)的鲁棒性。在这项工作中，我们首次提出了一种隐写方法，可以将信息嵌入到混合的单个声源中，如音乐中的乐器音轨。为此，我们提出了一个时域模型和课程学习，以学习从分离源解码隐藏信息。实验结果表明，该方法成功地将信息隐藏在难以察觉的扰动中，并且通过源分离算法，即使混合了其他源和分离，也能正确地恢复信息。此外，我们表明，提出的方法可以同时应用于多个源，而不干扰其他源的解码器，即使源经过了混合和分离。

关键词：隐写，水印，源分离

1 介绍

音频隐写术(《A multi-threshold based audio steganography scheme》，《Hide and speak: Towards deep neural networks for speech steganography》，《Audio steganography based on iterative adversarial attacks against convolutional neural networks》)是一种将秘密信息隐藏在被称为载体的主音频内的技术，它以一种人耳无法察觉的方式隐藏信息。近年来，深度神经网络(DNNs)被用作隐写函数，将数据隐藏在图像内部以达到高容量(《Hiding images in plain sight: Deep steganography》，《Generating steganographic images via adversarial training》，《Hidden: Hiding data with deep networks》，《Large-capacity image steganography based on invertible neural networks》)。Kreuk等人成功地采用了一种基于DNN的音频隐写方法(《Hide and speak: Towards deep neural networks for speech steganography》)，在短时傅里叶变换(STFT)域中隐藏消息，同时考虑了相位不匹配的逆STFT造成的失真。尽管该方法对数据传输过程中可能引入的某些类型的失真具有鲁棒性，但该方法并不假设载波可以被积极编辑。因此，在混合中很难隐藏每个源中的信息，如音乐中的单个乐器轨迹，并从混合的源分离声音中恢复信息。在这项工作中，我们首次解决了这个问题，并提出了一种基于DNN的隐写方法，即使在源混合和分离后仍然有效。

最近，由于基于DNN的方法的进步，源分离精度得到了很大的提高(《Singing voice separation with deep U-Net convolutional networks》，《Conv-TasNet: Surpassing ideal time frequency magnitude masking for speech separation》，《MMDenseLSTM: An efficient combination of convolutional and recurrent neural networks for audio source separation》，《Audio query-based music source separation》，《Dilated convolution with dilated GRU for music source separation》，《Music source separation in the waveform domain》，《Recursive speech separation for unknown number of speakers》，《Densely connected multidilated convolutional networks for dense prediction tasks》)，分离源被广泛用于许多目的，如卡拉ok、使用分离源创建新内容，以及使用由分离声音组成的数据集训练模型(《Score and lyrics-free singing voice generation》，《Endto-end lyrics recognition with voice to singing style transfer》)。因此，关注声源的价值和功能变得越来越重要，这些声源可能会与其他声源混合，然后通过声源分离算法进行分离。该方法解决了这一问题，可用于各种应用。例如，秘密通信，速记术的主要焦点，可以扩展到源级通信，其中信息隐藏在声源中，并与其他未知的源混合。知道消息存在的收件人可以从单独的来源解码消息。音源创作者可以隐藏诸如音源的音符、字幕、版权信息或任何无关信息等信息。在为了所有权保护而隐藏版权信息的情况下，该方法也被称为水印。保护创作者的权利不被滥用的分离来源也变得越来越重要，我们提出的方法解决了这个问题。

在这项工作中，我们专注于音乐来源。我们的目标是让创作者能够独立地隐藏音源中的信息。因此，我们主要关注源修改的不可感知性和对源混合和分离的鲁棒性。这项工作的贡献有五点：
1.我们建议将消息隐藏在一个源中，该源将与其他未知的源混合，然后通过源分离方法分离消息。我们称该方法为信源混合分离鲁棒音频隐写术(MSRAS)。
2.我们提出了一种基于DNN的隐藏算法，在时域内隐藏信息，以避免相位错配造成的失真，并通过源分离模型实现简单的端到端隐藏和解码器优化。
3.我们进一步提出课程学习，这被证明是必不可少的训练隐藏和解码器通过源分离模型。
4.我们的实验表明，MSRAS可以从未处理的和分离的源中恢复消息，并且具有很高的准确性，而对隐藏的修改则很难被人耳检测到。我们还展示了所提出的方法对其他类型噪声的鲁棒性。
5.我们进一步表明，MSRAS可以应用于混合中的多个源，以独立地隐藏消息，而不会干扰其他源中的消息。这使得创建者能够独立地将消息隐藏在每个源中，而不知道它们将与其他源混合。

2 相关工作

如前所述，隐写术与水印密切相关。隐写术的主要目标是秘密通信，其重点是不可感知，而水印更注重鲁棒性，通常用于所有权保护和验证。各种音频水印方法已经被提出，如拼接(《Robust multiplicative patchwork method for audio watermarking》，《Patchwork-based audio watermarking method robust to desynchronization attacks》)，扩频(《An improved multiplicative spread spectrum embedding scheme for data hiding》，《Audio watermarking techniques using sinusoidal pattern based on pseudorandom sequence》)，回声隐藏(《Effective pseudonoise sequence and decoding function for imperceptibility and robustness enhancement in time-spread echo based audio watermarking》，《Highly robust, secure, and perceptual-quality echo hiding scheme》)，支持向量回归(《A new adaptive digital audio watermarking based on support vector regression》，《A new adaptive digital audio watermarking based on support vector regression》)，奇异值分解(《Blind SVD-based audio watermarking using entropy and log-polar transformation》)。近年来，基于深度学习的图像水印和隐写方法(《Generating steganographic images via adversarial training》)被提出。

我们的工作也与对抗样本有关，其中DNN被证明能够检测可被设计用于操纵网络预测的不易察觉特征(《Intriguing properties of neural networks》，《Intriguing properties of neural networks》)。最近，在音频源分离(《Densely connected multidilated convolutional networks for dense prediction tasks》)中探索了对抗样本。

3 提出方法

3.1 音频隐写

隐写术模型由隐藏器组成： $E(c,m)=\hat{c}$ ，它将消息 $m$ 隐藏在载波音频信号 $c$ 中，以及从嵌入的载波中恢复为 $D(\hat{c}) = \hat{m}$ 的消息的解码器 $D$ 。隐藏器和解码器的目标是使消息重构误差 $d_m(m,\hat{m})$ 最小化，同时将载波的修改规整到最小。通过最小化损失函数 $L$ 来训练模型：
$L(c,m)=\lambda_c d_c(c,\hat{c})+\lambda_m d_m(m,\hat{m}) \tag{1}$ 其中 $\lambda_c$ 和 $\lambda_m$ 表示权重， $d_c(c,\hat{c})$ 是度量原始载波和嵌入载波之间相似性的度量。在《Hide and speak: Towards deep neural networks for speech steganography》中， $d_c$ 和 $d_m$ 都使用 $l 1$ 范数。

3.2 结合源混合和分离

我们扩展了上一节中描述的方法，在混合的单个源中启用消息隐藏，这样就可以从分离的源中恢复消息，如图1所示。为了简单起见，我们假设根据源类型(如音乐中的乐器类型)进行源分离。给定混合物 $x=\sum_{n=1}^N c_n$ 的 $N$ 个源 $c_1,···,c_N$ ，我们将消息 $m_{i∈Γ}$ 隐藏到 $N$ 个源中的 $k$ 个中。在不失一般性的情况下，我们选择前 $k$ 个源作为包含消息的源( $Γ = [1,\cdot\cdot\cdot, k]$ )。隐藏器 $E^i$ 以源 $c_i$ 和消息 $m_i$ 为输入，独立于其他源输出嵌入源 $\hat{c}_i = E^i(c_i, m_i)$ 。将嵌入源和非嵌入源进行混合，形成混合物 $\hat{x}$ ，它可以是要发行的最终产品(如音乐)。然后应用源分离 $f(\hat{x})$ 得到分离 $\tilde{c}_i$ 。我们的目标是使用解码器 $D^i()$ 恢复来自 $\hat{c}_i$ 和 $\tilde{c}_i$ 的消息。源i的损失函数变成
$L^{(i)}=\lambda^i_1 d_c(c_i, \hat{c}_i) + \lambda^i_2 d_m(m_i, \hat{m}_i) + \lambda^i_3 d_m(m_i, \tilde{m}_i) \tag{3}$ 其中 $\tilde{m}_i = D^i(f(\hat{x})_i)$ 表示从第 $i$ 个分离源 $f(\hat{x})_i$ 恢复的消息。注意，由于 $\tilde{m}$ 依赖于混合物 $\hat{x}$ 中的所有源，损耗 $L^{(i)}$ 也与其他隐藏器 $E^{j \ne i}$ 有关。训练所有编码器和解码器的一种方法是普遍使用所有损失的总和 $L^{all} = \sum_{i \in Γ} L^{(i)}$ 。然而，这种策略不必要地促进了每个隐藏器对其他未观察到的来源的依赖，并未能学习到任何隐写功能。因此，我们只使用 $L^{(i)}$ 通过冻结其他隐藏器来训练源 $i$ 的模型，并按照算法1所示交替训练每个源的模型。该培训方案通过了解其他隐藏者的隐藏策略来提高每个模型的独立性，避免干扰。这允许消息的发送方和接收方在不知道其他源的情况下处理源。
算法1

3.3 在时域中隐藏消息

Kreuk等人将信息隐藏在谱图域(《Hide and speak: Towards deep neural networks for speech steganography》)中进行解码，利用嵌入的谱图 $\hat{C}$ 和原始载波 $\angle C$ 的相位进行STFT逆恢复时域信号。幅值和相位的不匹配产生了嵌入频谱图 $\hat{C}$ 的失真。该问题的解决方法是在解码器训练过程中利用失真谱图对失真进行建模。

最近，生成对抗网络被证明可以从梅尔频谱图(《Melgan: Generative adversarial networks for conditional waveform synthesis》)生成高质量的波形。基于这项工作的动机，我们建议在时域中直接隐藏信息。为此，我们提出了一种时域隐藏器的网络架构，如图2所示。隐藏器将信息投影到 $h$ 维嵌入，并对其进行一维卷积。首先将载波(可能为多通道)信号转换为频谱图，并对时间和频率维度进行下采样/内插以匹配消息嵌入的维度。conv块由三个批处理规范栈和门控卷积(《Language modeling with gated convolutional networks》)组成，在该conv块之后，输出与消息嵌入合并。然后，卷积块和上采样层交替应用四次，以匹配输入波形的时间维度。上采样层由转置卷积组成，每一层的信道数减半。最后一层的输出与混合比 $α$ 加权的输入载波混合。该译码器由一个一维卷积、六叠卷积块和最大池化层、一个批规范化、非线性leaky ReLU和最后一个一维卷积组成。我们将提出的架构称为时域隐藏和解码器(TCD)。在我们的实验中，我们考虑字节数据，或者更具体地说，一个 $h$ 维的one-hot向量序列，帧速率为 $T$ 作为消息。因此，译码器的输出被送入 $so f t ma x$ 以获得 $H$ 类上的后验。然而，该方法可以直接应用于其他消息数据，如帧率为 $T$ 的 $H$ 波段梅尔谱图。

3.4 课程学习

由于源分离是一个高度非线性的过程，因为它是一个不适定问题，通过源分离模型学习TCD是极具挑战性的。模型无法通过直接使用(2)从头学习隐写函数。为了减轻这一困难，我们提出如下的课程学习：

第一步：我们首先训练隐藏器生成听起来与载波相似的音频，因为嵌入信号必须通过源分离模型才能从分离的源恢复信息。为此，我们引入了一种称为多分辨率下采样谱(MDS)损耗的辅助损耗函数，并将其作为度量 $d_c$ ：
$MDS(c,\hat{c})=\sum_{m \in M} || DS(S^m(c))-DS(S^m(\hat{c})) ||^2 \tag{3}$ 其中 $D S$ 表示核大小为 $(32, 1)$ 的平均池化函数， $S^m$ 是计算STFT参数为 $m$ 的谱图的函数， $m = [1024, 2048, 4096, 8192]$ 是STFT窗口长度的集合。MDS的思想是通过使用多分辨率STFT损耗(《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》)来促进自然声音，同时通过降低频谱图的采样来允许局部光谱差异。我们设置隐藏器中的混合比例 $α$ 为零，以避免平凡解。

第二步：一旦隐藏器发出的声音和声音来源相似，我们就开始隐藏信息。但是，我们首先只关注 $\hat{c}$ 的消息恢复。

第三步：解码器学习如何从嵌入源 $\hat{c}$ 中恢复消息后，我们在训练标准中引入源分离。

第四步：我们逐渐将图2中的 $α$ 增加到1。这有助于最小化来自原始载波的扰动。

第五步：为了进一步保证扰动的不可感知性，我们将 $d_c()$ 从MDS切换到定义为的多分辨率下采样谱图比(MDSR)：
$MDSR(c,\hat{c})=\sum_{m \in M} || DS(S^m(c-\hat{c}))/DS(S^m(c)) || \tag{4}$ MDSR使载波的下采样谱图与扰动的比值更小。因此，当载波在某一时频带包含高能量时，扰动也可以在该带具有更高的能量，这近似考虑了掩蔽效应。课程概况见表1。

3.5 提高鲁棒性

为了提高对噪声的鲁棒性，我们在步骤5中使用了三种类型的数据增强来提高模型的鲁棒性。(i)信道掩蔽：我们从其中一个信道随机掩蔽载波信号长度的一半(我们在实验中使用立体声音频)。(ii)加性噪声：加入高斯噪声， $σ = 0.001$ 。(iii)随机均衡器(Random EQ)：对该批次的一半样本加一个随机截止频率( $15 - 20 k Hz$ )的低通滤波器。

4 实验

4.1 设置

在MUSDB18数据集(《The 2018 signal separation evaluation campaign》)上进行实验，该数据集包含训练集和测试集的歌曲分别为100首和50首。对于每首歌，四个来源(低音，鼓，其他，人声)和他们的混合录音格式为 $44.1 k Hz$ 。除非另有说明，我们使用鼓轨作为载体来隐藏信息。我们将文本数据视为消息。我们每 $23.2 m s$ 将26个字母和1个末端标记编码为27维one-hot向量；因此，消息容量约为每秒43个字符。训练和测试均采用随机抽样的字符序列。我们使用开源音乐源分离库Demucs(《Music source separation in the waveform domain》)作为源分离器，在时域进行分离。我们使用提供的预先训练的权重，没有任何修改。我们使用交叉熵损失作为消息 $d_m$ 的度量。模型在训练集上使用学习率为 $0.001$ 和批大小为 $12$ 的Adam优化器进行训练，并在测试集上进行评估。

4.2 客观评估

我们通过与基线的比较来评价所提出的方法。我们采用《Hide and speak: Towards deep neural networks for speech steganography》中最先进的方法，该方法最初是为了将一个频谱图隐藏在另一个频谱图中而提出的，在隐藏器的开始和解码器的结束处添加线性层，以匹配信息的维数和频谱图的维数。我们还考虑了其他三个基线：(i)扩展了《Hide and speak: Towards deep neural networks for speech steganography》中的方法，纳入了从分离中恢复的消息的损失，表示为(2)，(ii)提出的时域模型，TCD，使用传统的损失(1)训练，(iii)提出的模型仅在分离源( $λ_2 = 0$ )训练。为了评估信号源的失真程度，我们报告了嵌入信号源和分离信号源的 $SNR (s i g na l, n o i se)$ 分别为 $\hat{c})$ 和 $\tilde{c})$ 。一般来说，信噪比和精度是一种权衡关系。我们调整权重参数λ，使嵌入源的信噪比高于 $30 d B$ ，因为扰动在该水平附近几乎听不到。结果如表2所示。Hide&Speak和TCD在嵌入式源 $\hat{c}$ 上实现了高信噪比的高精度。但是，当信息与其他来源混合并分离后，它们无法解码 $\tilde{c})$ 。通过将分离恢复的消息( $d_m(m_i, \tilde{m}_i)$ )上的损失纳入到Hide&Speak中，从分离源解码的精度得到了提高，但仍然明显低于 $D(\hat{c})$ 上的精度。该方法在高信噪比的嵌入源和分离源上均达到 $100\%$ 的精度。这突出了TCD对源混合和分离的鲁棒性。有趣的是，当我们训练TCD仅从分离源( $λ_2 = 0$ )恢复隐藏信息时，我们在嵌入源上获得了 $61.5\%$ 的准确率，而在分离源上获得了 $100\%$ 的准确率。我们也在相同的背景下训练Hide&Speak， $λ_2 = 0$ ；但是，它不学习任何隐写函数，准确率与随机猜测相同( $1/27=3.7\%$ )。这些结果进一步验证了所提出的TCD的有效性。

由于提出的方法和Hide&Speak基线在 $\hat{c}$ 上都获得了 $100\%$ 的准确率，因此差异是不可见的。我们通过将字母的类型增加到 $96$ 来进一步比较这些模型。在 $\hat{c}$ 上的信噪比约为 $36 d B$ 的情况下，Hide&Speak和本文方法在 $D (c)$ 上的准确率分别为 $99.3\%$ 和 $98.8\%$ ，在 $D (c)$ 上的准确率分别为 $8.1\%$ 和 $97.7\%$ 。结果表明，该方法在嵌入源上具有较好的性能，而在分离源上具有更强的鲁棒性。

4.3 主观检测能力测试

我们还进行了一个主观测试来评估扰动的可感知性。对嵌入源 $\hat{c}$ 和分离源 $\tilde{c}$ 进行ABX测试，其中，对于 $\hat{c}$ , $X$ 为原始源 $c$ , $A$ 或 $B$ 中有一个与 $X$ 相同，另一个为 $\hat{c}$ ，对于 $\tilde{c}$ , $X$ 为原始源混合的分离。受试者被要求识别 $A$ 或 $B$ 中哪一个与 $X$ 相同，并允许听样本多次。44名音频工程师为每个案例评估10个三秒音频样本，结果有440个评估。如表3所示，正确识别未修改源的准确率接近于概率( $50\%$ );因此，我们认为信息隐藏所造成的失真是人耳难以察觉的。

4.4 课程学习

接下来，我们展示所提出的课程学习的有效性。为此，我们省略了课程中的一个步骤，并比较信噪比和准确性。当省略该步骤时，我们在下一步扩展迭代次数，以匹配迭代的总次数，以便进行公平比较。如表4所示，步骤1和2对于TDC学习隐写功能是必不可少的。省略步骤3、4或5并不会降低精度，但是信噪比会降低。因此，我们得出结论，步骤3到5有助于学习一个高度难以察觉的隐藏函数。

4.5 多模型干扰

我们还测试了多个源包含嵌入消息的情况。我们按照第3.2节描述的方式训练鼓和人声音轨的模型。结果如表5所示。从鼓分离的信息恢复的准确性仍然很高，即使我们包括对声音的隐藏。虽然与鼓相比，人声分离的精度相对较低，但其精度与嵌入源( $D(\hat{c}) \approx D(\tilde{c})$ )相似。这表明消息可以隐藏在多个源中，并从每个分离的源中恢复，而不干扰其他模型。

4.6 对噪声和编辑的鲁棒性

最后，我们研究了对不同类型的扰动的鲁棒性，即加性高斯噪声(AGN)，信道下降掩盖其中一个信道，随机增益从 $- 3$ 到 $3 d B$ (EQ)的五频段均衡和MP3压缩。对混合物 $x$ 施加噪声，对变形混合物进行分离测试。使用和不使用第3.5节描述的数据增强训练的两个模型的准确性如表6所示。未经数据增强训练的模型对加性噪声和均衡化具有较强的鲁棒性，但易出现数据丢失和信号压缩。数据增强显示，大大提高了鲁棒性对这些类型的噪声和编辑。

5 结论

我们提出了对源混合和分离具有鲁棒性的音频隐写，其中消息单独隐藏在一些源中，在与其他源混合并分离混合后可以恢复消息。为此，我们提出课程学习来训练时域遮瑕和解码器。实验结果从不同角度验证了该方法的有效性。未来的工作包括将该方法推广到看不见的分离模型，测试其他领域信号，如语音和环境声音的混合，并探索逃避隐写分析方法的能力。

Takahashi N, Singh M K, Mitsufuji Y. Source Mixing and Separation Robust Audio Steganography[J]. arXiv preprint arXiv:2110.05054, 2021.

FallenDarkStar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
【论文学习】《Source Mixing and Separation Robust Audio Steganography》

音频隐写技术是通过在载体上进行不易察觉的修改，将秘密信息隐藏在载体音频中。虽然以前的工作解决了隐藏消息恢复对传输过程中引入的失真的鲁棒性，但他们没有解决对侵略性编辑(如混合其他音频源和源分离)的鲁棒性。在这项工作中，我们首次提出了一种隐写方法，可以将信息嵌入到混合的单个声源中，如音乐中的乐器音轨。为此，我们提出了一个时域模型和课程学习，以学习从分离源解码隐藏信息。实验结果表明，该方法成功地将信息隐藏在难以察觉的扰动中，并且通过源分离算法，即使混合了其他源和分离，也能正确地恢复信息。...
复制链接

扫一扫