A Universal Audio Steganalysis Scheme Basedon Multiscale Spectrograms and DeepResNet

qq_53637816

已于 2023-09-22 11:40:35 修改

阅读量491

点赞数

文章标签：机器学习

于 2023-09-17 16:39:08 首次发布

本文链接：https://blog.csdn.net/qq_53637816/article/details/132891702

版权

摘要

本文提出了一种名为 MultiSpecNet 的通用隐写分析方案，用于检测基于多个嵌入域（高级音频编码（AAC）和 MPEG-1 音频层 III（MP3））的隐写术，这是目前最流行的两种压缩音频标准。基本思想是通过隐写方案对任一域的修改都会改变解码后音频信号的时频关系。所提出的方法采用频谱图作为输入特征来提取更丰富的信息。 DeepResNet用于学习区分特征表示，多尺度谱图用于丰富特征多样性。实验结果表明，所提出的方案能够有效地检测基于 AAC 和 MP3 嵌入域的不同隐写方案。该方案的检测精度高于其他最先进的方案。使用频谱图作为输入，DeepResNet 比使用量化改进离散余弦变换（MDCT）系数和梅尔频谱图的方案获得了更好的性能，尽管量化 MDCT 系数是直接由隐写方案修改的参数，并且梅尔频谱图在以下方面非常流行和有效：一般音频信号分析。据我们所知，这项工作是第一个可以检测 MP3 和 AAC 嵌入领域中的多种隐写方案的音频隐写分析方案。本文提出的方法可以扩展到其他编解码器或音频取证目的的音频隐写分析。

1 介绍

如今，最广泛使用的音频压缩标准是高级音频编码 (AAC) 和 MPEG-1 音频层 III (MP3)。 AAC在相同码率下可以实现比MP3更好的音质；因此，AAC正在逐渐取代MP3，在当前的互联网应用中占据主导地位。 AAC 被指定为一部分MPEG-2 和 MPEG-4 标准 [1]，并被主流音频和视频应用所使用。如今，AAC 已成为许多主流 HDTV 标准、硬件和手机的默认音频编码格式，并广泛应用于互联网通信应用[2]。这种无处不在的音频压缩数据存储和通信为隐蔽通信提供了巨大的载波通道。

人们提出了许多基于AAC和MP3的隐写方案[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12] 、[13]、[14]、[15]、[16]、[17]。 AAC和MP3的压缩原理和压缩参数基本相似。现有隐写方案的共同原理是修改压缩参数来隐藏秘密信息。 AAC 和 MP3 中有三个主要的嵌入域：量化改进离散余弦变换 (QMDCT) 系数 [3]、[16]、比例因子 [4]、[5]、[13]、[14] 和霍夫曼编码参数[6]、[7]、[8]、[9]、[11]、[12]、[15]、[17]。

对于 AAC，只有少数隐写方案存在。 Wang[3]提出通过修改小的QMDCT值来嵌入秘密信息以实现高不可感知性。Zhu[7]提出修改QMDCT的符号位来嵌入信息。 Wang[6]提出用矩阵编码[18]修改AAC霍夫曼编码中转义序列的最低有效位（LSB），以嵌入秘密信息并减少修改的位数。在[8]中，朱提出通过修改 AAC 的霍夫曼编码部分来嵌入秘密信息。上述所有隐写方案都会修改AAC压缩参数。尽管它们的嵌入域不同，但每种方案都会改变每个 AAC 帧的 QMDCT。

相比之下，MP3 存在许多隐写方案。Wang[3]通过修改MP3的QMDCT系数来嵌入数据。 Xu [4]和Wei [5]通过修改比例因子来嵌入数据。 Wang [6]、Zhu [7] 和 Zhu [8] 通过修改符号位或霍夫曼编码码字来嵌入数据。早年，一些公开的 MP3 隐写工具是许多隐写分析方案的热门目标，例如 MP3Stego [13]、UnderMP3Cover [14] 和 MP3Stegz [15]。 MP3Stego [13] 通过修改比例因子来嵌入数据，UnderMP3Cover [14] 通过改变全局增益来嵌入数据，MP3Stegz [15] 利用 MP3 文件内的闲置空间来嵌入数据。但这些公共工具的嵌入容量较小，统计安全性较低。近年来，一些具有高信息隐藏能力和良好统计安全性的MP3隐写方案被提出。 Yan[9]将霍夫曼编码码字分为两组，并用不同组中的码字表示秘密位。为了提高统计安全性，Yang[11]通过使用等长熵代码替换（EECS）和综合症网格代码（STC）提出了自适应隐写术的概念[19]。最近，Yi[17]提出了基于EECS[11]的广义自适应霍夫曼编码映射（AHCM）方案，并使用动态霍夫曼码字映射和帧间感知失真来提高统计安全性。 Yang[16]提出了一种联合嵌入失真函数（JED）来提高MP3隐写术的不可检测性和不可感知性。

自从隐写术出现以来，AAC和MP3出现了许多变体方案[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28] 、[29]、[30]、[31]、[32]。作为一种AAC隐写方案，Ren[20]提出提取相邻尺度因子带码本的马尔可夫转移概率作为隐写分析特征来检测霍夫曼编码隐写方案。在[22]中，Ren提出提取帧间和帧内QMDCT系数的一阶和二阶差分残差的马尔可夫转移概率和联合概率密度作为隐写分析特征来检测QMDCT隐写方案。这些方案[20]、[22]对于指定的嵌入域表现良好，但对于其他嵌入域效果较差。

存在许多用于检测 MP3 隐写术方案的隐写分析方案。早年，手工制作的特色很流行。 Yan[21]提出提取MP3相邻帧的量化步长之间的差异作为隐写分析特征。在[23]中，Yan提出提取再压缩前后音频比特池中比特数统计分布的不一致作为隐写分析方案。Yu[24]提出了一种基于大值统计分布特征的隐写分析方案。 Qiao [25]提出使用QMDCT系数的多个统计特征作为分类特征来检测MP3Stego。Julio[26]发现MP3Stego文件的第一帧中的存储位的平均值异常，并且提出了 MP3Stego 的盲隐写分析方案。 Tint [28]提出使用PCA和ICA来提取MP3Stego引入的特征。最近，Wang [31] 使用马尔可夫特征来捕获 QMDCT 系数之间的相关性。为了检测UnderMp3Cover，[32]中提出了一种多层架构隐写分析方案；使用全局增益和 MP3 比特流的其他字段之间的联合分布。

随着深度神经网络（DNN）技术在隐写分析方案中的成功应用[33]，[34]，[35]，[36]，[37]，[38]，[39]，[40]，[41] ，[42]，[43]，[44]，[45]，[46]，许多基于DNN的音频隐写分析方案已经出现。在[39]中，设计了一个卷积神经网络（CNN）来检测时域中的音频隐写方案。在[47]中，使用具有特殊卷积层和截断线性单元的CNN来提高[39]的性能。 Wang[43]提出了一种基于CNN的MP3隐写分析方案，该方案使用QMDCT矩阵作为CNN的输入；然后，他们应用高通滤波器来增强隐写术引入的差异特征。实验结果表明，基于 CNN 的方案优于手工方案。在[48]中，Wang提出使用丰富的高通滤波和全连接层来提高检测精度。尽管[43]和[48]中的两种基于CNN的隐写分析方案显着提高了检测精度，但它们仅适用于检测MP3音频，因为隐写分析网络的输入是QMDCT矩阵，这对于AAC和MP3来说有很大不同。

为了提高隐写分析方案的通用性，本文提出了一种通用隐写分析方案MultiSpecNet（Multiscale Spectrogram DeepResNet）来检测AAC和MP3不同嵌入域的隐写方案。其基本思想是，虽然 AAC 和 MP3 都存在许多不同的嵌入方案，但所有这些方案都会以不同的方式改变 MDCT 系数的值，并最终改变解码后音频信号的时频相关性。下面列出了拟议方案的三个主要贡献。

采用解码后的音频信号的频谱图作为DNN的输入，以提高隐写分析方案的通用性。频谱图是音频信号频率频谱的直观表示。几乎所有 AAC 和 MP3 的隐写方案都会同时引入时间和频率之间频谱能量关系的变化。频谱图包含有关这些关系的原始信息；因此，它保留了有关隐写术特征的丰富信息。本文报道的一系列实验表明，使用频谱图作为深度网络的输入比使用 QMDCT 矩阵或梅尔频谱图实现了更好的检测精度，尽管 QMDCT 矩阵直接修改了隐写方案的参数，而梅尔频谱图则直接修改了隐写方案的参数。频谱图对于音频信号分析的应用非常流行且有效。
特征表示网络中使用高通滤波器和深度残差网络来更有效地提取隐写分析特征。一组高通滤波器是旨在放大由隐写操作引起的时间和频率之间的频谱能量差异。设计了一种使用更深神经网络且不受梯度消失问题影响的隐写分析深度残差网络，用于从高通滤波器后的微弱信号中提取隐写分析特征。
多尺度谱图用于丰富特征多样性。不同窗口大小下频谱图的时频关系会发生变化。因此，为了更完整地捕获隐写分析特征，融合了使用不同窗口大小的多个频谱图中提取的特征，以提高检测精度和所提出方案的通用性。

本文的其余部分安排如下。相关工作在第2节中介绍。在第3节中，详细描述了所提出的隐写分析方案MultiSpecNet。实验结果报告于第 4 节。最后得出结论，并在第 5 节中讨论未来的工作。

2 准备工作

2.1 AAC和MP3编解码器的编码原理

AAC和MP3都属于感知音频编码的框架，其中包括MDCT变换、心理声学模型、量化和熵编码。 AAC 相对于 MP3 的优点包括更高的采样率、更多支持的通道、更高效的编码以及用于提高压缩效率的附加模块。 AAC和MP3的主要压缩参数包括QMDCT系数、比例因子、全局增益等；这些是通过霍夫曼编码压缩的。感知音频编码的框架和三个主要嵌入域如图1所示。心理声学模型用于分析音频信号的听觉感知特征，以计算量化失真并将音频帧分为不同类型。利用分析滤波器组对每个音频帧进行时频转换，根据心理声学模型计算子带频率块，得到听觉掩蔽阈值和最大允许失真。对变换后的 MDCT 系数执行三层循环量化，以确保给定比特率下的最佳音频质量。采用哈夫曼编码进一步压缩编码参数。

2.2 AAC 和 MP3 的隐写方案

如图1所示，存在三个主要的嵌入域：QMDCT系数、比例因子和霍夫曼码字。由于AAC和MP3编码中的有损量化，对量化MDCT系数的轻微修改不会明显降低音频质量。因此，可以通过微调压缩参数的值来嵌入秘密消息。在已开发的众多 AAC 和 MP3 隐写方案中，下面介绍来自不同嵌入领域的三种流行的 AAC 隐写方案和四种有影响力的 MP3 隐写方案。

2.2.1 AAC_LSB

在[6]中，AAC霍夫曼编码中转义序列的最低有效位（LSB）通过矩阵编码进行修改以嵌入秘密信息。在AAC编解码器中，转义序列是一种特殊的码本，用于对值大于16的QMDCT系数进行编码。修改转义序列的LSB对音频质量的负面影响最小。在AAC压缩数据中，大于16的QMDCT系数占所有系数的5%~6%，主要是低频系数。因此，该方案下AAC音频信号的变化几乎总是发生在信号的低频部分。

2.2.2 AAC_MIN

在[3]中，Wang提出了一种在QMDCT系数的小值区域实现AAC隐写术的方法，其幅度基本上为{-1、0或1}。在AAC的QMDCT系数编码阶段，小值区域的系数一般采用码本1和码本2进行编码，将4个QMDCT系数归为一个索引值，从码本中搜索特定的码字。为了进一步减少 AAC 音频失真，隐写算法修改了最后一个 QMDCT 系数。因此，该方案引起的变化通常发生在音频信号的低频和中频部分。

2.2.3 AAC_SIGN

在[7]中，Zhu提出在AAC编码流的霍夫曼编码过程中通过翻转绝对值小于给定阈值的QMDCT系数的符号位来嵌入消息。 QMDCT系数由多个码本编码。编码器根据编码后的比特数选择最优码本将2或4个QMDCT系数编码为霍夫曼码字。如果选择的码本具有符号位，则非零QMDCT系数的符号位被附加到码字。这种细微的修改并没有改变AAC编码过程中的其他参数；它仅更改特定 QMDCT 系数的符号位。因此，它产生的音频质量失真最小。

2.2.4 MP3Stego

MP3Stego [13] 被开发为一个公共工具，用于在 MP3 压缩过程中隐藏 MP3 文件中的信息。该方案使用两个嵌套循环来量化MP3编码器中的MDCT系数：内循环和外循环。外环用于评估音频信号的失真度，以保证令人满意的音频质量。内循环用于选择合适的标量因子，以用可用位数来限定 MDCT 系数。MP3Stego 使用的隐藏操作在内循环中执行。选择标量因子以将主数据位的LSB设置为等于嵌入的秘密位。

2.2.5 EECS

EECS [11] 是第一个在大值区域和校正子网格代码 (STC) 中利用等长熵代码替换 (EECS) 的自适应 MP3 隐写方案 [19]。长度、符号位数和linbit 标志相等的一对霍夫曼码被定义为可相互替换的码。通过设计基于心理声学模型 (PAM) 的内容感知失真函数，STC 框架可用于自适应隐写术。

2.2.6 AHCM

AHCM[17]是在EECS[11]的基础上发展起来的；它将霍夫曼码表中的码字对划分为一组可相互替换的码字，并构造霍夫曼码字的动态映射，提高统计随机性。帧间感知失真（FPD）旨在获得最佳的帧嵌入路径。 STC框架用于实现自适应嵌入方案。

2.2.7 UnderMP3Cover

UnderMP3Cover[14]通过修改粒子边信息中的global_gain来实现秘密信息的顺序嵌入。 global_gain的最低有效位被秘密消息的比特流替换，使用参数BitSpacing来确定嵌入位置间隔。事实上，UnderMP3Cover 并不直接修改 QMDCT 系数；因此，基于QMDCT系数矩阵的常规隐写分析方案无法检测UnderMP3Cover。

所有上述隐写方案都修改压缩参数来隐藏信息。虽然这些方案的嵌入域和音频编解码器不同，但这些方案的最终效果改变了不同频率范围内编码音频信号的MDCT系数。

2.3 声谱图

频谱图是音频信号频谱的直观表示。它展示了不同频段随时间变化的能量幅度信息，包含了丰富的音频信号时频信息。因此，当试图捕获不同音频隐写方案引入的更一般特征时，频谱图是音频隐写分析的一个很好的研究主题。

图 2 显示了音频信号的波形和频谱图。横轴表示音频信号的时域。纵轴表示频率领域。第三个维度，用图像中每个点的颜色强度来表示，表示该时刻频率的幅度。为了获取音频信号频谱图，使用给定的窗口大小将信号分为许多帧。声谱图的共振峰有效地表达了声学参数，声谱图的局部特征可以准确地表示加性噪声。因此，它是捕获隐写嵌入操作留下的痕迹的有效候选者。

不同窗口大小获得的频谱图反映了音频信号不同的时间和空间相关性。图2显示了窗口大小为32的短片段的宽带频谱图和窗口大小为320的窄带频谱图及其波形。当窗口尺寸较小时，频谱图具有较高的时间分辨率但频率分辨率较低，而当窗口尺寸较大时，频谱图具有较低的时间分辨率但较高的频率分辨率。因此，不同窗长下得到的频谱图的时频关系是不同的。在所提出的方案中，融合了从不同窗口长度的声谱图中获得的特征，以丰富特征多样性并提高检测精度。

3 多规格网络架构

在此基础上，本文提出了一种通用的音频隐写分析方案——MultiSpecNet。MultiSpecNet以音频信号的频谱图作为隐写分析对象，利用深度残差网络提取隐写分析特征，并结合不同窗口大小下的多个频谱图提取更丰富的特征。

MultiSpecNet方案的主要架构如图3所示。MultiSpecNet由三个主要部分组成:谱图预处理模块(SPM)、深度残差隐写分析网络(DeepResNet)和分类模块(CM)。SPM在给定窗口大小下生成输入音频信号的频谱图，并使用滤波器对频谱图进行预处理。DeepResNet是隐写分析特征网络框架。它基于深度残差网络架构，用于从滤波后的频谱图中提取隐写特征。CM是一种传统的分类方法，它融合了在不同窗口尺寸下获得的多个光谱图的特征。每个模块的详细信息如下所述。

3.1 频谱图预处理模块

在该模块中，训练或测试音频信号在给定窗口大小下表示为频谱图。音频信号在时域和频域上都高度相关。因此，频谱图是分析隐写操作引入的时域和频域相关性变化的高效表示。音频信号频谱图包括三种类型的信号：音频内容信号、音频信号本身固有的噪声以及嵌入操作引入的噪声。与图像隐写分析任务一样，隐写术引入的噪声很弱。因此，应放大音频信号噪声以提高隐写噪声的信噪比（SNR）。在[49]中，Fridrich等人提出了一种基于空间域丰富模型特征（SRM）的图像隐写分析方案，其中引入多个滤波器来捕获测试图像在不同方向和维度上的噪声分布特征。受这项工作的启发，通过线性回归分析了100个覆盖音频样本的频谱图中帧内和帧间信息之间的相关性，并设计了多个滤波器对频谱图进行预处理。音频信号是 AAC 文件，带有32 kHz 时长为 2 秒，并解码为波形音频格式 (WAV) 文件。频谱图是 n m 频谱图，其中由于傅里叶变换的对称性，n 是窗口大小的一半，m 是具有 50% 重叠的单个音频剪辑中的帧总数（例如，如果窗口大小N = 1 024，频谱图的维度为512 x 128)。多元线性回归模型如(1)所示，其中y为因变量xt； t = 1,2, ..., s 是自变量，b0 是偏差。对于3 x 3滤波器，s设置为8，矩阵中心点与8个相邻信号点之间的相关性如图4所示。

从图4可以看出，水平和垂直方向上相邻点之间的相关性都比较强，尤其是垂直方向上。在频谱图中，垂直方向相关性反映了同一帧中相邻频带的相关性，而水平方向则表示同一频带中连续帧之间的关系。基于上述分析，一组来自不同的过滤器选择方向，以便深度残差网络的第一个卷积层可以提取由覆盖样本和隐写样本之间的隐写噪声引入的能量差异。

在这项工作中，选择了 4 个固定参数滤波器来预处理频谱图。滤波器的大小为3×3，空白处用零填充，如图5所示。在未来的工作中，滤波器参数可以通过网络进行训练，以提高所提出方案的性能。

3.2 Deep Residual Steganalysis Network

首先，使用四个滤波器对音频信号频谱图进行滤波。然后，由具有 10 个输出通道的初始卷积层进行处理，以提取特征矩阵中的潜在相关性。 DeepResNet 由 30 层组成，每对卷积层都包含一个快捷方式。随后，应用全局平均池化层。DeepResNet的架构如图6所示。DeepResNet的详细信息如下。

3.2.1 卷积层

无论滤波器参数是否固定，本文中的卷积层的内核大小均为 3 x 3 。SPM中引入的滤波器用于减弱频谱图中音频内容的影响。其余的卷积层，包括 SPM 之后的初始卷积层，用于捕获特征矩阵中固有的潜在相关性。根据通道数，残差网络中的卷积层可以分为三种类型：Conv-A、Conv-B和Conv-C，如图7所示，分别包含10、20和40个通道，分别。除非另有说明，水平和垂直方向的步幅均为 1。而且，每组有5个残差单元，总共形成10个卷积层。

3.2.2 残差单元

在卷积神经网络（CNN）中，更多的卷积层通常意味着从不同维度提取的特征会更丰富，可以支持更高的分类精度。然而，当 CNN 达到一定深度后，增加神经网络层数会降低性能，因为梯度消失问题。那时，训练和测试的准确性将会下降。因此，训练一个有效的神经网络是很困难的，深度神经网络的学习能力也会受到限制。

与经典 CNN 相比，残差网络 [50] 可以集成更多数量的卷积层，而不会降低性能。模型学习可以简化为学习近似映射函数，如图8所示，其中H (x) = x 是级联卷积层的假设模型。 CNN 的目标是直接找到映射函数 H (x)。然而，残差网络由于其恒等函数x而有所不同；因此，残差网络尝试寻找残差函数 F (x) = H (x) - x。这样，对残差网络进行改造，使其通过学习残差F (x) = 0 来逼近理想假设，这比直接逼近H (x) 更容易。显然，通过引入恒等函数 x，卷积输出比经典 CNN 对输入的变化更加敏感。

在图 6 中，穿过每对卷积层的弧代表捷径。实数弧表示x与F (x) 大小相同，两个张量可以直接相加。 Conv-A和Conv-B之间或Conv-B和Conv-C之间的虚线弧表示各层具有不同的尺寸；因此，x需要在加法运算之前进行下采样。

3.2.3 批量归一化层

[51]中提出了批量归一化来加速深度网络训练。每个隐藏层之前的输入分布在每次训练迭代中都会有所不同。批量归一化对每次训练迭代执行归一化，作为设置较低初始学习率或限制参数初始化的替代方法，这两者都需要更多的模型训练时间。如图 6 所示，在每个新的卷积层之前应用批量归一化。

3.2.4 激活函数

除了批量归一化之外，DeepResNet 中的每个批量归一化之后还会应用激活函数。卷积层之间的非线性链接提供了比线性模型更好的表达能力。因此，采用修正线性单元（ReLU）作为该方案的激活函数。

3.2.5 池化层

为了降低计算复杂度，在深度网络中使用最大池化层或平均池化层来减少特征维度。在 Conv-A 和 ConvB 之间以及 Conv-B 和 Conv-C 之间的 DeepResNet 上应用了 3 x 3 平均池化层，在水平和垂直方向上的步幅均为 2。 Conv-A、Conv-B 或 Conv-C 的快捷方式中没有池化层来保持 x 和 F (x) 的尺寸一致。在分类模块（CM）之前应用全局平均池化操作以获得 40 维分类特征。

3.3 分类模块

在其他基于CNN的[39]、[43]和基于RNN的[52]隐写分析方案中，网络中的分类模块始终是带有2路softmax层的全连接层，如图9所示，输出2个类别标签的概率。给定阈值范围为 0 到 1（默认为 0.5），测试样本被判断为 cover 或 stego。

在频谱图特征图中，不同窗口大小下的音频信号特征是不同的。因此，选择合适的窗口大小进行隐写分析非常重要。在本文中，我们考虑具有不同窗口大小的频谱图。对于给定的音频样本，频谱图将具有不同的维度和不同的 N 值。然而，全局平均池化后的分类特征维度是恒定的。在我们的实验中，我们选择了三个具有不同窗口大小的频谱图来增加特征多样性。将三个 40 维特征连接到 120 维特征作为最终的隐写分析特征。图10展示了本文使用的分类模块；选定的窗口大小 N 为 1024、512 和 256。引入 LibSVM [53] 来训练基于源自音频的 120 维特征的最终分类模型样品。在检测阶段，利用从测试音频样本中提取的120维特征来判断音频是被覆盖还是隐秘音频。

4 实验

为了评估所提出的 MultiSpecNet 方案的性能，我们进行了四次实验。第一个实验评估了所提出的方案检测具有不同嵌入域的三种 AAC 和四种 MP3 隐写方案的准确性。第二个实验旨在将所提出的 MultiSpecNet 与其他隐写分析方案的性能进行比较。第三个实验旨在比较深度残差网络不同输入的检测性能，包括频谱图、梅尔频谱图和 QMDCT 系数。第四个实验比较了不同窗口大小的谱图对隐写分析性能的影响。

4.1 实验装置

4.1.1 数据集

据作者所知，用于 AAC 或 MP3 隐写分析的公共音频数据集很少，例如 EECS 的 ASDIIE1 [11]。因此，我们构建了一个内部音频数据集并将其与现有数据集相结合。从互联网上下载了总共186张音乐录音，包括不同风格（如爵士乐、摇滚、乡村和流行）、不同语言（主要是中文和英语）和不同歌手性别。将音乐样本切成片段以构建 AAC 音频数据集和 MP3 音频数据集。下面描述的实验中的所有音频数据集以及所提出的 MultiSpecNet 方案的源代码都已发布在 GitHub2 上。该项目基于 TensorFlow 1.0.0、CUDA 8.0.61、CuDNN 5.1.10 和 Python 2.7.15。所有参数均使用自适应矩估计（Adam）优化器进行训练：小批量大小为 32，这意味着使用了 16 对 cover 和 Stego 音频样本，学习率衰减为 0.9，权重衰减为 2 x 10^(-4)。

AAC 音频数据集。 10,000 个 16kHz、16 位、2 秒音频样本用于构建 4 个不同的音频样本集，包括一个覆盖数据集 (CDB_AAC) 和三个隐写数据集 (SDB_AAC_LSB、SDB_AAC_MIN、SDB_AAC_SIGN)。这些数据集主要构建如下。

CDB_AAC：WAV 格式的音频样本使用开源免费软件高级音频编码器 (FAAC) [54] 以 32 kbps 进行编码，然后使用免费软件高级音频解码器 (FAAD2) 解码为 WAV 格式。解码后的音频样本为 32 kHz，2 通道，CDB_AAC 中的封面样本总数为 10,000。

SDB_AAC：10,000 个音频样本（.m4a 格式）由 AAC_LSB、AAC_MIN 和 AAC_SIGN 隐写方案 [6] 生成，并使用 10%、20%、30% 、50% 和 100%的相对嵌入率 (EBR) 嵌入秘密消息。相对EBR是实际嵌入消息长度与最大可能嵌入消息长度的比率。 SDB_AAC_LSB、SDB_AAC_MIN 中的 Stego 样本总数（.wav 格式），SDB_AAC_SIGN 为 10000 x 5 = 50000；使用 FAAD2 解码压缩音频比特流后为。

MP3 音频数据集。有六个 MP3 隐写术数据集。 ASDIIE 覆盖音频数据集的子集用于构建 CDB_ASDIIE。基于 EECS、AHCM 和 UnderMP3Cover 的 Stego 音频数据集用于创建三个 Stego 数据集，分别称为 SDB_EECS、SDB_AHCM 和 SDB_UCOVER，以及来自内部的总共 9,000 个 16 位、44.1kHz、5 秒音频样本片段。 house 数据集用于为 MP3Stego 构建 2 个不同的音频数据集，包括一个封面样本集 (CDB_MP3Stego)和 Stego 样本集 (SDB_MP3Stego)。两个数据集的主要内容如下。

DB_ASDIIE：使用 128 kbps 的通用比特率、公开可用的 MP3 编解码器和 Lame Aint MP3 编码器 (LAME) 将来自 ASDIIE 的 4000 个采样率为 44.1 kHz、持续时间为 10 秒的音频剪辑编码为 MP3 文件。 CDB_ASDIIE 中的封面样本总数为 4,000 个。 STC通过EECS和AHCM算法将秘密消息以128 kbps的速度嵌入到CDB_ASDIIE中的音频文件中，构建SDB_EECS和SDB_AHCM的隐写音频数据集，并使用UnderMP3Cover以128 kbps的速度嵌入秘密消息以构建隐写音频SDB_UCOVER 的数据集。 UnderMP3Cover 中的相对有效负载 $\alpha$ 表示嵌入容量，与 BitSpacing (BS) 参数的关系为 $\alpha$ = 1/BS，而 EECS 和 AHCM 中的相对有效负载 $\alpha$ 与奇偶校验矩阵 W 的约束宽度相关由于自适应隐写方案中的隐藏消息是通过 STC 进行编码的，因此关系式为 $\alpha$ = 1/W。W有5种设置（2;3;4;5;7），BitSpacing有3种设置（1;2;4）；因此，SDB_EECS和SDB_AHCM中的隐写样本数量为4000 x 5 = 20000，而SDB_UCOVER中的stego样本数量为4000 x 3 = 12000。

DB_MP3Stego：WAV 文件格式的音频样本以 128 kbps 进行编码，并使用公开可用的 MP3 编解码器 (LAME) 进行解码。解码后的音频样本（.wav 格式）为 44.1kHz 样本，CDB_MP3Stego 中有 9,000 个封面样本。使用MP3Stego方案，将秘密消息以128 kbps的速度嵌入到CDB_MP3Stego中的音频文件中，以构建stego音频数据集SDB_MP3Stego。 SDB_MP3Stego 中的隐写样本总数为 9000。

4.1.2 衡量标准

为了评估所提出方案的检测精度并确保公平比较，我们采用真阳性率（TPR）、真阴性率（TNR）和分类精度（ACC）作为指标。 TPR表示被检测为stego的stego样本的比例； TNR反映了被检测为封面的封面样本的比例； ACC代表所有cover和stego样本的检测精度。

4.2 实验与结果

4.2.1 实验 I

进行该实验是为了评估所提出方案的检测精度和平均运行时间成本。所提出的方法检测所有三个 AAC检测到不同嵌入域中的隐写方案，以及所有四种 MP3 隐写方案：MP3Stego [13]、EECS [11]、UnderMP3Cover [14] 和 AHCM [17]。

对于三种 AAC 隐写方案 AAC_LSB、AAC_MIN 和 AAC_SIGN，窗口大小为 N = 1024 （2 秒音频片段的声谱图特征矩阵的维度为 512 x 128）的频谱图，从 CDB_AAC、SDB_AAC_LSB、SDB_AAC_MIN 和 SDB_AAC_SIGN 中的 6,000 个解码音频样本中提取。选择窗口大小为 N = 2048 的频谱图（5秒音频片段的频谱图特征矩阵的维度为1024 x 214）作为MP3Stego的分析特征，从 SDB_EECS、SDB_AHCM 和 SDB_UCOVER 中选择窗口大小为N = 1152的频谱图作为 EECS、AHCM 和 UnderMP3Cover 算法的隐写分析特征。当N=1152时，100帧（近1.3秒）和48帧（近0.6秒）音频片段的频谱图特征矩阵的维度分别为576 200和576 96。

在训练过程中，从CDB_AAC中的3,000个音频样本中提取的频谱图被用作覆盖输入，而SDB_AAC_LSB、SDB_AAC_MIN和SDB_AAC_SIGN中相对EBR为0.3的3,000个音频样本的频谱图被选择作为隐写输入，这意味着分类这三种算法的模型是在输入样本的混合上进行训练的。此外，来自 CDB_MP3Stego 和 SDB_MP3Stego 的 1,500 个封面隐写对的频谱图被选择作为 MultiSpecNet 的输入，而来自 ASDIIE 的 2,000 个封面音频剪辑的频谱图被选择作为封面输入。相应 Stego 音频的频谱图，W = 2； 3； 4； 5； and7（或 BS = 1；2；4）被选为隐写输入。在评估过程中，检测三种 AAC 隐写方案的评估数据集的架构有所不同。选择 CDB_AAC 中剩余 3,000 个音频样本的频谱图作为覆盖输入，并选择由不同方案和不同 EBR 生成的相应 3,000 个音频样本的频谱图（对于给定 EBR，每个算法有 200 个样本）作为隐写输入。为了检测其他方案，评估数据集的架构与训练数据集的架构相同。这两个数据集之间不存在重叠。

实验一的检测结果如表1、表2和表3所示。EA反映了检测的嵌入方案，ATC是特征提取和网络预测的平均时间成本，ACC是训练模型的平均检测精度。封面或隐秘样本由给定的隐写算法使用不同的 EBR 生成。结果表明，所提出的方案对于所有这些算法的检测性能都是有希望的，但是对于不同的隐写方案，其性能有所不同。检测精度随着嵌入容量的降低而降低。基于STC的自适应隐写术具有更好的隐蔽性。该结果表明，所提出的方案在用于检测不同嵌入域中的多种隐写方案时可以取得良好的性能。此外，所提出方案的平均运行时间成本远低于音频持续时间，这表明所提出的MultiSpecNet适合实时应用。

4.2.2 实验 II

本实验的目的是比较所提出方案与现有隐写分析方案的检测精度。

比较的方案包括Ren的方案[22]、Luo的方案[39]、Zhao的早期基于CNN的方案[43]、改进的隐写分析网络JPBC[46]和RHFCN[48]以及Wang的方法[31]。 Ren的方案[22]引入了经典的丰富模型特征，全面分析了帧间和帧内QMDCT系数的一阶微分和二阶微分残差的马尔可夫转移概率和联合概率密度。在Luo的方案[39]中，训练好的分类器使用基于时域原始音频信号的七层卷积神经网络。赵的方法[43]、[46]、[48]使用基于CNN的QMDCT矩阵隐写分析方案来检测霍夫曼码字域中的MP3隐写方案。对于这个实验，我们还针对 AAC 编解码器实现了[43]中的方案；然而，CNN 被 DeepResNet 模型取代，从而提高了其性能。我们还将 JPBC [46] 和 RHFCN [48] 的结果与所提出的方案在 EECS 上的检测性能进行了比较。 Wang的方法[31]提出了一个马尔可夫特征来捕获QMDCT系数之间的相关性。对于本实验中的 AAC 嵌入方案，我们采用持续时间为 2 秒的音频样本来提高性能测试时，对于MP3Stego，我们采用5秒的样本，对于EECS，我们采用1.3秒的样本。

实验II的结果列于表4、表5和表6中。图11显示了表4中结果的可视化。隐写分析方案表示所使用的隐写分析方案，EA、AVERAGE和ACC的含义与表1.与其他隐写分析方案相比，MultiSpecNet的平均检测精度高于比较方案，包括传统的手工方案[22]和基于CNN的方案[39]、[43]。在[22]中，音频样本的长度为20秒。然而，即使应用于 2 秒音频样本，MultiSpecNet 的性能也优于该方案。对于 MP3Stego 和 EECS，所提出的方案的检测性能高于现有工作报告的检测性能，特别是在低嵌入率（或相对有效负载）的情况下，这在实践中很重要。

4.2.3 实验 III

为了评估 MultiSpecNet 具有不同输入特征的检测性能，我们将频谱图输入与梅尔频谱图和 QMDCT 系数进行了比较；选择EECS和UnderMP3Cover作为分析对象。训练过程与中的相同实验I，但输入不同。音频持续时间为 48 帧或 100 帧（单声道音频分别约为 0.6 秒和 1.3 秒）。因此，窗口大小为 N = 1156 的频谱图和梅尔频谱图具有相同的维度，分别为 576 96 和 576 200，而 QMDCT 系数矩阵的维度分别为 96 576 和 200 576。 UnderMP3Cover 的设置与 EECS 类似，只是嵌入间隔参数 (BitSpacing) 设置为 1、2 和 4。

实验III的结果如表7和表8所示，其中W为奇偶校验矩阵的约束宽度，有5种设置(2、3、4、5、7)，而奇偶校验矩阵的约束高度为本实验中校验矩阵固定为7。 FEAT 指的是各种隐写分析功能，包括频谱图、梅尔频谱图和 QMDCT 系数。 BS 是相对嵌入率的倒数。根据表7可知，使用频谱图作为输入特征的方案实现了更高的检测精度。当相对有效负载较高时，例如当 W = 2 时，使用三种不同输入特征实现的检测精度几乎相同。然而，频谱图方案比梅尔频谱图实现了更高的检测精度，并且 QMDCT 系数在较低的相对有效负载下实现了更高的检测精度，特别是当 W = 7 时，这验证了频谱图对于通用 AAC 和 MP3 隐写分析方案来说是一个良好的输入特征。这个结果也显示在表8中，并且基于QMDCT系数的所提出的方案针对UnderMP3Cover的检测精度为0.5，这表明QMDCT系数不能用于检测诸如UnderMP3Cover之类的隐写术，因为它不直接修改QMDCT系数。然而，全局增益的细微修改确实会修改MDCT系数，并且这些变化将反映在频谱图中和梅尔谱图。此外，与通过历元或迭代演化的EECS（W=5）相比，该方案在有效数据集上的训练损失和检测精度如图12所示。在这个实验环境中，网络收敛需要173分钟（大约8,000次迭代），这表明所提出的方案在训练过程中快速收敛，并且频谱图是基于深度学习的隐写分析方案的更好对象。

我们分析了造成这一实验结果的原因。尽管深度神经网络具有出色的学习区分特征的能力，但其性能取决于输入特征。更加多样化和丰富的原始输入特征将使网络学习到更有效和泛化的特征。尽管QMDCT是通过隐写方案直接修改的压缩参数，但是使用QMDCT矩阵作为输入特征忽略了由不同比例因子量化引入的音频信号在时域和频域中的相邻相关性的信息。此外，为了实现良好的不可察觉性和统计安全性，虽然在这些隐写方案中QMDCT系数修改可能是微妙的，但由于解码过程中的逆量化操作，嵌入操作留下的足迹可能会被放大。因此，更多的修改痕迹会反映在频谱图中；因此，使用频谱图时的检测精度优于使用QMDCT矩阵时的检测精度。

对于许多一般音频信号处理任务，例如语音或说话人识别，梅尔谱图是深度神经网络的有效且流行的输入特征。然而，对于隐写分析任务，至少在AAC和MP3音频片段上，梅尔谱图并不优于谱图，主要是因为AAC和MP3的主要编码过程——包括MDCT变换和量化——都是在线性频率上执行的量表而不是梅尔频率量表。

此外，基于压缩参数域的音频隐写术将较少关注低频区域以实现不可察觉，而这正是语音识别领域更关注的区域。相反，中频和高频区域在梅尔频谱图中没有详细描述，在大多数隐写术和隐写分析任务中引起更多关注；因此，通过隐写术修改引入的变化在原始频谱图中比在梅尔频谱图中具有更丰富的信息。

4.2.4 实验 IV

进行该实验是为了研究多尺度频谱图的影响。尽管不同窗口大小的频谱图的特征矩阵具有不同的形状，但全局平均池化层之后的特征长度保持不变（例如40）。对于具有给定窗口大小的频谱图，根据该窗口大小训练分类模型并保存。然后，源自在不同窗口大小的频谱图上训练的三个分类模型的三个 40 维特征被合并为一个 120 维特征。支持向量机（SVM）分类器被用作最终的分类模型，它考虑了不同尺度的谱图特征。本实验中训练集和测试集架构与实验I相同。

使用多尺度频谱图训练的模型在三个 AAC 隐写术和 MP3Stego 数据集上进行了验证。检测结果如表9所示。窗口大小表示用于输入频谱图的窗口大小，而 Mixture 表示在具有不同窗口大小的三个频谱图上训练的混合分类模型。表 9 的结果表明，利用具有不同窗口大小的多个频谱图的丰富特征的 MultiSpecNet 优于基于仅一种窗口大小的频谱图的训练模型。

5 结论

本文提出了一种名为 MultiSpecNet 的通用音频隐写分析方案，该方案基于用作深度残差网络输入的频谱图。该方案可用于检测应用于 AAC 和 MP3 音频中不同嵌入域的隐写方案。从这项工作中可以得出三个结论：1）。表示音频信号时间序列的频谱关系的频谱图可以有效地用作分析信号，以获得音频隐写分析方案的更通用的特征。 2）深度残差网络解决了梯度消失问题，适合基于微弱信号变化提取隐写分析特征。 3）融合不同谱图尺度的特征提高了检测精度。

实验结果表明，该方案取得了良好的检测精度，并具有较高的泛化性。对于应用于 AAC 和 MP3 音频不同嵌入域的 6 种测试隐写方案，所提出的方案比现有的基于传统手工制作或 CNN 提取特征的隐写分析方案实现了更高的检测精度。实验结果甚至表明，虽然量化 MDCT 系数是由隐写方案直接修改的参数，并且梅尔谱图对于一般音频信号分析很流行且有效，但谱图作为隐写分析 DNN 的输入特征更有效。据我们所知，这项工作是第一个使用频谱图和深度残差网络来提高音频隐写分析的泛化性的工作，也是第一个可用于检测 MP3 和 MP3 不同嵌入域中的多种隐写方案的音频隐写分析方案。 AAC。该方案的分析对象是解码后的音频信号；因此，所提出的方案的实现很简单，并且不需要提取音频压缩参数。本研究期间实现的代码已发布在 GitHub 上，以方便同行学者。该方案对安全音频隐写方案的设计提出了新的挑战，可作为评估音频隐写方案安全性的基准。它还可以用作生成对抗网络（GAN）中的判别模型，以提高音频隐写算法的安全性。所提出的工作构成了用于检测音频隐写方案的新颖的基本框架。随着深度学习的发展，寻找更好的网络设计选择并开发自监督学习方法以获得更好的特征表示将是我们未来的工作。此外，未来还可以进行许多其他研究来提高性能，例如更丰富的输入特征、应用注意力机制或添加预训练机制以提高通用性和检测准确性。