FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD

最新推荐文章于 2024-08-21 11:02:00 发布

蔡栖月

最新推荐文章于 2024-08-21 11:02:00 发布

阅读量834

点赞数 28

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/ggqyh/article/details/136530966

版权

FilterAugment是一种针对音频和语音任务的数据增强方法，通过模拟声学滤波器，使模型适应不同声学环境。在声音事件检测和说话人验证中，它显著提升了模型性能，特别是在SED任务中PSDS提高了6.50%，在说话人验证中EER降低了1.22%。

摘要由CSDN通过智能技术生成

摘要

声学环境影响通过与声波传播进行物理交互来识别声音的声学特性。因此，在音频和语音任务中训练声学模型需要对各种声学环境进行正则化，以实现在实际应用中的稳健性能。我们提出了FilterAugment，这是一种用于对各种声学环境进行正则化的数据增强方法。FilterAugment模拟声学滤波器，通过在频段上应用不同的权重，使模型能够从更广泛的频率区域提取相关信息。它是频率屏蔽的改进版本，后者在随机频段上屏蔽信息。FilterAugment改善了声音事件检测（SED）模型的性能，其多音声音检测得分（PSDS）提高了6.50%，而频率屏蔽只提高了2.13%。将其应用于文本无关说话人验证模型时，它实现了1.22%的等误差率（EER），表现优于使用频率屏蔽的模型，后者的EER为1.26%。FilterAugment的原型被应用于我们参与的DCASE 2021挑战任务4中，并在取得第三名成绩中发挥了重要作用。

1.引言

训练深度神经网络（DNNs）需要大量高质量的数据集，以便对模型进行正则化并实现稳健的性能。然而，收集这样的数据集需要巨大的时间和成本。为了有效利用有限规模的数据集，已经提出了许多数据增强方法。数据增强方法通过提供同一数据的各种“视图”来增加数据集大小[1][2][3]。通过在每个时期使用来自不同视图的数据来训练神经网络，可以使其被正则化以学习跨不同视图共享的信息。

在音频和语音任务中应用深度学习（DL）方法，如声音事件检测（SED）、说话人识别和自动语音识别（ASR），已经采用了从计算机视觉领域[2][3][4][5]发展而来的DL方法技术。将短时傅里叶变换（STFT）应用于音频数据可以将数据维度从1D波形（时间）转变为2D频谱图（时间和频率），这样可以像处理图像数据一样对待[5][6][8]。一些为计算机视觉任务提出的数据增强方法，比如mixup[9]，在音频和语音领域也被积极使用。然而，大多数图像数据增强方法，包括旋转、翻转、错切和裁剪[1]，在应用于频谱图时会导致音频数据的无关变换。因此，在音频和语音领域中，需要与声学和信号处理领域知识一致的数据增强方法，以有效训练声学模型。术语“声学模型”通常指的是ASR模型中用于从语音音频信号中提取声学信息的编码器结构。在本文中，我们将神经网络中用于音频和语音任务的编码器结构称为声学模型，因为它们的共同目的是从音频信号中有效提取有用的声学信息。

早期在音频和语音任务中引入深度学习方法的工作使用传统的音频信号处理方法进行数据增强[2][3]。尽管传统的音频信号处理方法确实有助于增加数据集的大小，但在没有足够的声学和信号处理领域的理解的情况下，它们并不容易利用。这个问题通过SpecAugment[10]得到了解决，它涉及对梅尔频谱图进行时间遮罩和频率遮罩，简单地遮蔽了一小段时间和频率范围的信息。时间和频率遮罩可以很容易地应用于训练声学模型，因为它们的算法是简单和直接的，但从某种意义上说它们是粗暴的，因为它们完全去除了数据中的某些信息。

在这项工作中，我们提出了FilterAugment，这是对SpecAugment中频率遮罩的改进版本。FilterAugment旨在通过模拟声学滤波器来使声学模型在各种声学环境下得到规范化。在各种声学环境中，例如会议室、浴室、表演大厅、洞穴等，声音的听感可能会有所不同。尽管这些声学特性来自不同的物理环境，但人类可以识别声音事件、说话者或口语单词，而不受声学特性的影响。这些高度变化的声学特性可以用声学滤波器[11]进行建模，FilterAugment旨在以简化的方式模仿这些声学滤波器，以便训练声学模型能够识别各种声学环境中的声音内容。FilterAugment通过在随机确定的频段上施加随机权重来近似声学滤波器。虽然应用FilterAugment并不能使声音听起来和应用声学滤波器的结果一样自然，但它能有效地通过从更广泛的频率范围提取声音信息来规范化声学模型。我们在2021年DCASE（Detection and Classification of Acoustic Scenes and Events）挑战中应用了FilterAugment的原型，最终获得了第三名的成绩。考虑到排名前五名的大多数其他团队都对模型架构进行了重大修改，而我们没有这样做，因此FilterAugment被证明是一种强大的数据增强方法。我们在GitHub上分享了FilterAugment在声音事件检测（SED）任务上的官方实现代码。

2.声音数据增强

在音频和语音领域的数据增强方法包括传统的音频信号处理方法，如时间拉伸、音高变化、剪辑、抑制、添加噪音、添加混响等[2][3]。这些方法反映了声学和信号处理领域的专业知识，因此它们经常被用于数据增强的目的。然而，使用传统的音频信号处理方法进行数据增强在训练声学模型时可能会引入一些低效性。应用传统的音频信号处理方法需要先前的知识来适当处理音频数据。此外，这些方法可能涉及更多的计算，以获取更自然的声音，但这并不一定能够更好地训练声学模型。这种低效性阻碍了声学模型的最佳训练。因此，我们需要简单直观、同时对于训练声学模型提取音频数据信息有效的数据增强方法。

SpecAugment[10]是音频和语音领域中最强大、广泛使用的数据增强方法之一。与在波形上应用数据增强不同，SpecAugment提出了时间扭曲、时间遮罩和频率遮罩，这些方法可以直接应用于对数梅尔频谱图。由于它直接应用于输入特征空间，因此易于理解和使用。直观地说，对音频进行时间扭曲会使音频在某些点播放得更快，而在其他点播放得更慢。时间遮罩会导致某些部分在短时间内不被播放。频率遮罩会导致某个频率范围的部分丢失。只要这些扭曲不太严重，人类就能在经过这些处理后识别音频数据的内容，训练有素的声学模型也应该能够做到。尽管这些方法在转回波形时听起来并不像传统的音频处理方法那样自然，但它们可以帮助更有效地训练声学模型，尤其是在极端情况下。

3.提出的方法

3.1动机

FilterAugment可以从两个不同但相关的观点来解释。从声学和信号处理的角度来看，FilterAugment通过模拟声学滤波器，使声学模型对各种声学环境进行正则化。从声学模型训练的角度来看，FilterAugment在训练过程中学习如何有效地从广泛的频率范围中提取声学信息。我们将首先从声学和信号处理的角度解释FilterAugment的动机，然后讨论它在声学模型训练中的重要性。

当我们听到声音事件或演讲时，我们可以识别它们的内容，无论声学环境如何，除非环境太嘈杂或回声太大。这是因为我们的听觉系统经过训练，能够理解声音内容，无论声学环境如何。声学环境指的是围绕声源、接收器（耳朵或麦克风）以及它们周围的空气（声波传播的介质）的物理对象。这些与声波相互作用，通过吸收、反射、散射等方式改变接收器感知到的声音的声学特性[11]。这种声学特性的变化表现为不同频率范围上能量的相对变化。例如，当声源远离接收器时，高频能量会减少，因为在空气中传播时，高频能量的衰减比低频能量更大。类似地，当接收器和声源之间有墙壁或其他物体阻挡时，由于高频能量不容易衍射，因此不容易传播到接收器，高频能量也会减少。此外，房间的墙壁和陈设会造成混响，早期混响会引起变色，改变所感知到的声音的声学特性。不同频率范围上能量的这种变化可以通过设计适当类型的滤波器来模拟：高通滤波器、低通滤波器、带通滤波器、陷阻滤波器等[7][11]。然而，为了进行数据增强，设计和应用这样的滤波器需要对声学和信号处理有一定的了解。此外，将滤波器应用于训练音频数据需要计算滤波器的冲激响应，并将其与音频数据卷积，这需要时间。尽管训练时间可能并不会增加太多，但这会使训练和优化过程变得更加复杂。因此，我们提出了FilterAugment，这是一个更简单的替代数据增强方法，用于模拟滤波器效果。FilterAugment随机增加或减少对数梅尔频谱图的随机频率范围的能量。这种随机频率范围内的能量增加或减少相当于应用随机滤波器。虽然与声学滤波器相比可能听起来不自然，因为它引入了离散的滤波器设计，但FilterAugment更容易理解和使用。

从声学模型训练的角度来看，对log mel频谱图的随机频带进行随机加权，使得声学模型能够从更宽的频率范围中提取声音信息。如果没有FilterAugment，声学模型很可能只学会识别那些展现所需标签中显著和独特特征的频率范围。然而，我们可以不受声学环境的影响，仍然能够识别声音内容，即使最显著特征的频率范围被大幅减少。这意味着我们仍然可以从其他不太显著的频率范围中识别声音内容。这也是为什么应用频率掩蔽可以改善声学模型训练的原因[10]。频率掩蔽会从某些随机频率范围中移除信息，有助于训练声学模型从不太显著的频率范围中推断声音信息。然而，频率掩蔽完全移除了某些能量，该能量可能有助于推断声音信息。这种对频谱的严重损坏在真实情况下很少发生，而且会导致模型被训练出强制从不明显的频率范围中提取信息。因此，FilterAugment会削弱某些频率范围，同时加强其他部分。降低能量而不是完全移除它至少可以让声学模型从该频率范围中推断信息。此外，增加其他频率范围的能量会训练声学模型识别来自各种频率区域的声音信息，因为它们将在每个训练周期中使用相同的数据，在不同的频率范围上进行突出显示。因此，FilterAugment有助于训练声学模型从更广泛的频率范围提取信息，而不考虑每个频率对构成声音信息的相对重要性。

3.2算法

我们提出了三种类型的FilterAugment：step（阶跃）、linear（线性）和mixed（混合）类型。以下是step类型FilterAugment的详细算法。

1. 在超参数带数范围内随机选择频率带数目 n。
2. 在 0 和 F（mel频谱中的mel频率bin数）之间随机选择 n-1 个mel频率bin，并包括 0 和 F，形成 n+1 个频率边界。这些频率边界之间至少以超参数最小带宽分隔。
3. 在超参数dB范围内随机选择 n 个不同的权重。
4. 将所选的 n 个权重分别添加到由每组连续频率边界定义的log mel频谱的 n 个频率带上。

因此，通过这种方法，在一些频率带中增加了mel频谱的能量，而在其他频率带中降低了能量。需要注意，采用最小带宽是为了防止权重应用得太局部化。如果放大或减少具有过窄带宽的频带的能量，可能导致音频片段听起来变化微乎其微，因此我们设置最小带宽以确保每个权重对声音产生显著变化。阶梯型FilterAugment是由一系列阶跃函数组成的最简单类型的FilterAugment。阶梯型FilterAugment的一个示例如图1.（b）所示。将该滤波器应用于原始音频剪辑的log mel频谱图如图2.（a）所示。可以观察到，与原始log mel频谱图相比，增强后的结果在400 Hz以下和5 kHz以上具有更高的能量，而其他频率区域的能量较低。此外，在频率范围上能量的突然变化可以在图1.（b）的频率边界处清晰地看到，表现为明显的水平线，分别在400 Hz和5 kHz处。

突然的能量变化在阶梯型FilterAugment的频率边界上会导致不自然的声音。为了产生更加自然的增强音频数据，我们提出了线性类型的FilterAugment。线性类型FilterAugment的算法与阶梯型FilterAugment的第1步和第2步是相同的。其余算法如下：

3. 在超参数dB范围内随机选择与n+1个频率边界相对应的n+1个不同权重。
4. 在频率边界内进行线性插值得到权重。
5. 将插值后的权重添加到log mel频谱上。

阶梯型FilterAugment应用由一系列阶跃函数组成的不连续滤波器，而线性型FilterAugment应用连续（尽管不可微分）的滤波器，由一系列线性函数组成。线性型FilterAugment的一个示例如图1.（c）所示，它是通过将滤波器图2.（b）应用于原始log mel频谱图图1.（a）而产生的。与原始log mel频谱图相比，在图1.（c）中可以观察到0 Hz、1.2 kHz和8 kHz周围的峰值，以及900 Hz和3 kHz周围的低谷，并且还可以观察到这些峰值和低谷之间的渐变变化。与图1.（b）中频率轴上能量突然变化的阶梯型FilterAugment相比，线性型FilterAugment在图1.（c）中显示出更加平滑的能量变化。

由于预期阶梯型和线性型FilterAugment对训练声学模型有不同的影响，提出了混合型FilterAugment来训练声学模型，使其在阶梯型和线性型FilterAugment上都得到正则化。超参数mix ratio决定了使用阶梯型FilterAugment的概率。例如，如果mix ratio为0.7，则批处理中应用阶梯型FilterAugment的概率为70%，应用线性型FilterAugment的概率为30%。

4.实验

4.1实施细节

FilterAugment算法在声事件检测（SED）和文本无关说话人验证中进行了测试：分别来自音频和语音领域的任务。我们首先在SED上优化了FilterAugment和频率掩蔽的超参数，然后将它们与优化后的超参数一起应用于说话人验证。频率掩蔽涉及一个最大掩蔽比例的超参数，该比例确定在训练过程中随机掩蔽的梅尔频率箱的最大比例为F。比较了基准模型在有无FilterAugment和频率掩蔽的情况下的表现。

本文中的SED基准模型是DCASE 2021挑战任务4[18][19]的基准模型的升级版，这与[12]中的优化模型相同，但没有原型FilterAugment。从DCASE基准[19, 20]开始，卷积循环神经网络（CRNN）的维度增加了一倍。卷积神经网络（CNN）结构中的激活函数被上下文门控取代。波形被归一化，使其绝对最大值等于一。时间掩蔽[10]被添加，并在7-30帧（0.11-0.48秒）的范围内进行了优化掩蔽。弱预测掩蔽应用于测试预测[12]。

我们比较了基准模型在有无频率掩蔽和step/linear/mixed类型FilterAugment的情况下的性能。评估指标包括DCASE 2021挑战任务4上[18][19][22]的多音声检测得分（PSDS）标准，以及基于宏领域F1分数[23]和基于宏交集F1分数[24]的度量。PSDS1更严厉地惩罚不准确的时间定位，而PSDS2更严厉地惩罚类别之间的混淆。这四个度量随着声事件检测性能的提高而增加。频率掩蔽和FilterAugment的超参数被优化，以获得DCASE 2021挑战任务4的官方评估得分PSDS1 + PSDS2最高值。F1分数列于参考之中。

我们将优化后的频率掩蔽和FilterAugment设置应用于文本无关说话人验证基准模型，该模型是来自[25]的没有数据增强的模型。然后，只有dB范围被重新优化，因为数据集[26, 27]由在受控声学环境中录制的YouTube视频访谈组成。尽管它们可能会有一些噪音，但是说话者与麦克风的距离通常很近，麦克风的录音质量足够好，可以保持语音的声学特性几乎不变。因此，FilterAugment的dB范围被缩小以匹配说话人验证任务的声学特性的方差。基准模型是带有SE模块和注意力统计汇聚（ASP）的ResNet-34 [28]。使用Voxceleb2数据集[27]的5994位说话人进行训练，损失函数由角度原型（AP）损失[29]和纯softmax损失组成。从Voxceleb1数据集[26]的每个话语中提取说话人嵌入，并使用余弦相似度进行验证。对于评估指标，我们使用相等错误率（EER）和最小检测成本函数（MinDCF），其中 $C_{miss}$ = 1， $C_{fa}$ = 1， $P_{target}$ = 0.05 [26, 30]。较低的EER和MinDCF值表示更好的说话人验证性能。

4.2结果和分析

频率掩蔽的优化超参数是最大掩蔽比例为1/16。Step类型的FilterAugment的优化超参数（在表1中列为Step FiltAug）为dB范围为（-6，6），频带数量范围为（2，5），最小带宽为4。线性类型的FilterAugment的优化超参数（在表1中列为Linear FiltAug）为dB范围为（-6，6），频带数量范围为（3，6），最小带宽为6。混合类型的FilterAugment使用了上述Step和Linear类型FilterAugment的优化超参数。宏基于领子的F1分数和宏基于交集的F1分数分别在表1中列为CB-F1和IB-F1。优化模型的度量值在表1中列出，所选择显示的值是每个度量的最大值，这些度量是基于三个独立训练的SED模型中的最大值。由于每次训练都会通过均值教师方法[31]得到单独的学生模型和教师模型，因此这些结果是6个模型结果中的最大值。结果表明，FilterAugment改善了SED模型的性能，并且明显优于使用频率掩蔽训练的模型。线性类型的FilterAugment比阶跃类型稍微表现更好。差异并不显著，但是更逼真的声学滤波器模拟可能有助于更好地训练声学模型。请注意，优化后的线性FilterAugment需要更多的频带和更宽的最小带宽。这应该会在谱图上产生更多的失真，因为线性类型的FilterAugment在频率边界上两个权重之间进行线性插值，导致谱图的失真较少。混合类型的FilterAugment表现比步进和线性类型的FilterAugment都要差，如表2所示。可以观察到，当混合比例接近0.5时，即均匀混合，性能变差。可以得出结论，在训练过程中在不同批次上使用不同的数据增强方法可能导致不一致的训练，从而降低性能。最终，线性FilterAugment实现了最佳得分。频率掩蔽使基准模型的性能提高了2.13％，而线性类型的FilterAugment使基准模型的性能提高了6.50％。

我们将无数据增强和使用数据增强方法的文本无关说话人验证性能进行了比较，结果如表3所示。用于说话人验证的FilterAugment采用与SED的线性类型FilterAugment相同的设置，重新优化后的dB范围为（-1.5，1.5）。结果显示，FilterAugment的性能优于没有增强和使用频率掩蔽的模型。尽管Voxceleb1和2具有受限制的声学环境，但FilterAugment仍然优于频率掩蔽。

5.结论

FilterAugment是一种音频数据增强方法，可以有效训练音频和语音领域任务中的声学模型。它通过学习从更广泛的频率范围提取声音信息，使声学模型在各种声学环境下得到规范化。在声音事件检测（SED）和文本无关说话人验证任务中，我们展示了FilterAugment不仅优于没有数据增强的模型，还优于使用类似方法的频率掩蔽的模型。总之，FilterAugment是一种简单但强大的音频数据增强方法，大大促进了在DCASE 2021任务4中获得第三名的成绩。

蔡栖月

关注

28
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD

声学环境影响通过与声波传播进行物理交互来识别声音的声学特性。因此，在音频和语音任务中训练声学模型需要对各种声学环境进行正则化，以实现在实际应用中的稳健性能。我们提出了FilterAugment，这是一种用于对各种声学环境进行正则化的数据增强方法。FilterAugment模拟声学滤波器，通过在频段上应用不同的权重，使模型能够从更广泛的频率区域提取相关信息。它是频率屏蔽的改进版本，后者在随机频段上屏蔽信息。
复制链接

扫一扫