Sound Event Detection: A Tutorial 学习笔记

Maestro_T

已于 2022-11-22 10:19:08 修改

阅读量2.8k

点赞数 7

分类专栏： python 音频文章标签：学习人工智能音频声音事件检测深度学习

于 2022-11-14 00:13:39 首次发布

本文链接：https://blog.csdn.net/Maestro_T/article/details/127839530

版权

本文探讨了声音事件检测（SED）在识别环境声音中的应用，面临的挑战包括声源距离、麦克风捕获的声压和缺乏统一的声音类别定义。主流方法是监督学习，使用音频和标注构建模型。数据增强和特征表示（如log梅尔能量和CRNN）是关键。未来趋势包括主动学习、联邦学习和零样本学习。

摘要由CSDN通过智能技术生成

原文链接

一、日常环境中的声音世界检测

自动声音事件检测（SED）方法的目标是识别音频信号中正在发生的事情以及它发生的时间。在实践中，目标是识别不同的声音在音频信号中什么时间段是活跃的。

就一般目的的声音事件监测系统是识别像鸟叫，汽车经过，脚步声等这一类环境声音。这类声音可以称之为非讲话或音乐声（non-speech and non-music sounds）

因为对讲话、音乐和环境声音的感知是不同的：音乐更关注声音的美学品质，讲话更关注语言学、附属语言学的信息，日常环境音是直接对声源的识别。
请添加图片描述

二、声音事件监测的挑战

挑战来源于待检测声音的本质以及它们产生的方式，同时也来源于数据收集和数据标注。
在一些应用中，目标事件的声源离麦克风很远，所以声音传输功能会有很大影响。此外，麦克风收集的目标事件声音的声压可能低于其他环境声音，这样增加了检测的难度。
环境声音区别于讲话和音乐的另一点是某一时刻同时发生的声音事件是没有任何规律可言的，任意时刻都有无限种可能。
缺乏完备和统一的声音类别定义描述是另一个难点。

三、通用的机器学习方法

主流的方式是应用监督学习，通过音频和对应的参考标注构建模型。标注信息包括了声音事件的时间信息。

如图2所示，在学习阶段，系统会学习从音频信号提取的特征和每个类别的标注信息之间的联系。标注信息表示为一个二进制矩阵，每个元素表示某帧中该声音类别的状态，1表示发生，0表示未发生。在测试阶段，系统会接收测试音频，并输出一个表示标注信息的二进制矩阵。

请添加图片描述
图3呈现了多标签多类别的分类输出：

当系统为整个音频文件的持续时间提供每个类别的单一预测，并且不为每个声音输出单独的活动模式时，该任务不再被称为检测（detection），而是称为标记（tagging）。

来自连续分析帧的上下文信息为学习与声音事件实例对应的连续片段带来了更多信息。根据分类方法，可以使用不同的技术对时间上下文进行建模，稍后将进行讨论。例如，其中声音被检测为active状态的一个或几个连续片段可能仍然具有太短而不能成为合理事件实例的组合长度，因此它们将被丢弃。类似地，在多个片段形成单个事件实例的假设下，可以“填充”事件活动中的短间隙。声音实例的预期最小/最大持续时间可以基于从训练数据中获得的统计数据或关于目标声音的一般假设（例如，500 ms 对于“汽车经过”来说太短了）。

四、数据

训练数据需要具有与实际应用相似的音频声音样本，并且有对目标事件的信息标注。使用声音事件检测的应用程序通常具有不同的目标声音事件类集，并且可能在略有不同的环境中使用。因此，没有普遍适用的声学模型或声音事件检测数据集，而是为手头的问题收集了许多数据集。

例如，在狗叫检测的情况下，这包括声源的不同实例（不同的狗）、声源状态的差异（例如情绪）和环境因素，例如声源所在的空间以及其他什么声源在周围且处于活动状态、声源的位置以及用于捕捉声音的麦克风的位置。

为了在短时间段内建立多类多标签分类问题，音频的注释也必须包含有关短时间段内声音事件的信息。这种类型的注释是一个非常具体的要求，称为强标签，即注释包含每个声音实例的时间信息，即它的开始和偏移时间。另一方面，弱标签仅告知声音在较长的录音中的存在，而没有明确指示该声音处于活动状态的时间区域。换句话说，弱标签适用于整个录音，而强标签适用于特定的音频片段，如图 4 所示。
请添加图片描述

理想情况下，用于训练系统的强标签的时间精度应至少为和输出分辨率一样好。然而，在实践中，人们可能会求助于较低的分辨率或弱标签，以便快速生成大量训练数据。

五、信号处理方法

SED任务主要可以分为两个部分，特征表示和分类

A 数据增强

对于包含单个声源的音频，例如来自单个扬声器的语音，数据增强可用于补充声学条件，例如噪声或房间特征。另一方面，在复调音乐中，重叠的声音经常表现出彼此之间的和声关系，并且数据增强应该保留这个属性以创建合理的附加数据。在声音事件检测中，对可用音频的操作和组合允许创建重叠事件的新组合。此外，可以使用多种噪声和脉冲响应条件通过与原始数据混合和卷积来补充数据。所有这些技术通过将声学可变性添加到训练数据中，有助于声学建模过程的稳健性。

SED 中使用的数据增强方法：
基本的信号处理:

时间拉伸time stretching
音调偏移pitch shifting
动态范围压缩dynamic range compression [13]
更复杂的处理
与各种脉冲响应的卷积convolution with various impulse responses（以模拟各种麦克风和声学环境））[15]
子帧时移sub-frame time shifting
块混合block mixing [16]
混合mixup [17]
通过在改变 SNR 的同时添加背景噪声来模拟一组噪声条件 [13]

在执行数据增强时，保持标签相对于新生成的数据的正确性很重要。参考注释需要根据扩充方法进行转换。图 5 说明了应用于输入信号及其相应注释的时间拉伸和块混合。

请添加图片描述

在时间拉伸中，音频的持续时间被延长，声音类别的active时间也相应地延长，以解释标签也被时间拉伸。
在块混合中，相同音频记录的两个不同块被加法混合，并且不同声音类的active时间使用 AND 操作组合。
相比之下，在混合数据增强mixup中，原始数据块及其标签组合为加权和，从而产生新的输入数据，其标签不再是二进制的。

B 特征表示

最常用的是log梅尔能量。

在语音和音乐领域的先前工作中，下一个处理步骤是离散余弦变换 (DCT)，从而产生梅尔频率倒谱系数 (MFCC)。 DCT将频谱转换为倒谱，其中低阶系数代表粗略的频谱特征，高阶系数与精细细节有关。此外，DCT 具有很强的压缩特性，导致大部分信号能量集中在输出的低阶分量中，这允许将特征向量截断为低阶系数，而不会丢失太多频谱信息。

另一种可用于 SED 的时频表示是恒定 Q 变换 (CQT) Constant-Q transform，其中频率轴是对数 [18]。 CQT 在较低频率下提供更好的光谱分辨率，在较高频率下提供更好的时间分辨率。

也可以使用以不同分析分辨率计算的光谱图[22]。使用具有不同时间或频率分辨率的表示的假设是，不同类型的声音可能受益于不同频率或时间分辨率的建模，例如，短的声音，例如门砰的一声，可以从分析中的高时间分辨率中受益，而像鸟儿的歌声，通过使用高分辨率的频率可以更好地表示声音的谐波分量。

特征学习。无监督特征学习方法尝试直接从数据中学习时频表示，而不像手工制作的特征那样使用有关数据特定属性的专家知识。

六、SED 机器学习

A CRNN

用于声音事件检测的通用网络架构是卷积循环神经网络（CRNN），包含具有特定作用的卷积层和循环层。卷积层充当特征提取器，旨在通过应用于网络输入处呈现的时频表示的连续卷积和非线性变换来学习判别特征。循环层的作用是学习在其输入处呈现的特征序列中的时间依赖性。

图 6 展示了一个由三个卷积块组成的 CRNN 架构，然后是两个循环层和两个前馈层。网络的每个主要组件之后的信息处理和结果表示与结构一起显示在图中。网络接收数据的时频表示作为输入，在这种情况下，对长度为 T 的数据段使用 40 个滤波器计算的 log mel 能量，并输出目标声音事件类别的事件活动概率。

请添加图片描述

由于声音事件检测需要估计声音事件的时间位置，所以必须保持时间轴，因此池化操作只在频率轴上进行。

最后一个卷积块的输出叠加在频率轴上，产生一个 2D 特征表示，然后将其作为输入提供给第一个循环层。

输出层由 sigmoid 单元组成，它们分别为每个目标事件类提供概率。

因为 SED 中的预期输出是每个事件类的二进制激活指标序列，所以网络输出被二进制化。二值化的阈值可以简单地选择为 0.5，也可以根据数据的统计量针对问题进行优化。此外，可以对生成的二进制序列进行后处理以形成事件实例。

在声音事件检测中，网络训练旨在最小化真实标签和预测标签之间的交叉熵。每个训练样本正确类的概率为 1.0，所有其他类的概率为 0.0，而网络估计样本属于每个类的概率，并计算两者之间的交叉熵。

根据任务选择网络架构：在对数据序列进行建模和预测时包括循环层，而在分类任务中不需要保留时间信息，因此网络通常只包括卷积块。进行声音事件检测的网络架构的选择通常基于在类似的音频分类问题中表现良好的架构。网络的大小通常受训练数据的可用性和形式的限制，包括类和训练示例的数量。最常见的结果是 2-5 个卷积块 + 1-2 个循环层和全连接层[26]。卷积滤波器的最佳数量和大小以及输入时频表示的大小通常是通过使用验证数据集的多次试验来选择。相比之下，在语音识别任务中（speech recognition tasks），有数百小时的数据可用于训练，会遇到数十层的网络，而在声学场景分类中，7-9 个卷积层常见于 20-40 小时的数据集。

B 先进方法

迁移学习

迁移学习为数据稀缺问题提供了不同的解决方案，作为数据增强的替代方案。主要思想是利用可用于某些任务的大量数据，并使用它来解决目标任务。因此，训练神经网络来解决预任务（允许学习声学特征的预先设计的任务），然后使用预训练的权重来构建目标任务的网络 [30]、[31]。预训练层提供的表示称为嵌入embeddings，并且可以被视为下游任务（原始目标任务，学习音频特征将用于解决的任务）的输入特征。可用于计算嵌入的预训练网络的可用示例包括 VGG-