Sound Event Detection: A Tutorial 学习笔记

原文链接

一、日常环境中的声音世界检测

自动声音事件检测(SED)方法的目标是识别音频信号中正在发生的事情以及它发生的时间。在实践中,目标是识别不同的声音在音频信号中什么时间段是活跃的。

就一般目的的声音事件监测系统是识别像鸟叫,汽车经过,脚步声等这一类环境声音。这类声音可以称之为非讲话或音乐声(non-speech and non-music sounds)

因为对讲话、音乐和环境声音的感知是不同的:音乐更关注声音的美学品质,讲话更关注语言学、附属语言学的信息,日常环境音是直接对声源的识别。
请添加图片描述

二、声音事件监测的挑战

挑战来源于待检测声音的本质以及它们产生的方式,同时也来源于数据收集和数据标注。
在一些应用中,目标事件的声源离麦克风很远,所以声音传输功能会有很大影响。此外,麦克风收集的目标事件声音的声压可能低于其他环境声音,这样增加了检测的难度。
环境声音区别于讲话和音乐的另一点是某一时刻同时发生的声音事件是没有任何规律可言的,任意时刻都有无限种可能。
缺乏完备和统一的声音类别定义描述是另一个难点。

三、通用的机器学习方法

主流的方式是应用监督学习,通过音频和对应的参考标注构建模型。标注信息包括了声音事件的时间信息。

如图2所示,在学习阶段,系统会学习从音频信号提取的特征和每个类别的标注信息之间的联系。标注信息表示为一个二进制矩阵,每个元素表示某帧中该声音类别的状态,1表示发生,0表示未发生。在测试阶段,系统会接收测试音频,并输出一个表示标注信息的二进制矩阵。

请添加图片描述
图3呈现了多标签多类别的分类输出:
请添加图片描述

当系统为整个音频文件的持续时间提供每个类别的单一预测,并且不为每个声音输出单独的活动模式时,该任务不再被称为检测(detection),而是称为标记(tagging)。

来自连续分析帧的上下文信息为学习与声音事件实例对应的连续片段带来了更多信息。根据分类方法,可以使用不同的技术对时间上下文进行建模,稍后将进行讨论。例如,其中声音被检测为active状态的一个或几个连续片段可能仍然具有太短而不能成为合理事件实例的组合长度,因此它们将被丢弃。类似地,在多个片段形成单个事件实例的假设下,可以“填充”事件活动中的短间隙。声音实例的预期最小/最大持续时间可以基于从训练数据中获得的统计数据或关于目标声音的一般假设(例如,500 ms 对于“汽车经过”来说太短了)。

四、数据

训练数据需要具有与实际应用相似的音频声音样本,并且有对目标事件的信息标注。使用声音事件检测的应用程序通常具有不同的目标声音事件类集,并且可能在略有不同的环境中使用。 因此,没有普遍适用的声学模型或声音事件检测数据集,而是为手头的问题收集了许多数据集。

例如,在狗叫检测的情况下,这包括声源的不同实例(不同的狗)、声源状态的差异(例如情绪)和环境因素,例如声源所在的空间以及其他什么 声源在周围且处于活动状态、声源的位置以及用于捕捉声音的麦克风的位置。

为了在短时间段内建立多类多标签分类问题,音频的注释也必须包含有关短时间段内声音事件的信息。这种类型的注释是一个非常具体的要求,称为强标签,即注释包含每个声音实例的时间信息,即它的开始和偏移时间。另一方面,弱标签仅告知声音在较长的录音中的存在,而没有明确指示该声音处于活动状态的时间区域。换句话说,弱标签适用于整个录音,而强标签适用于特定的音频片段,如图 4 所示。
请添加图片描述

理想情况下,用于训练系统的强标签的时间精度应至少为和输出分辨率一样好。然而,在实践中,人们可能会求助于较低的分辨率或弱标签,以便快速生成大量训练数据。

五、信号处理方法

SED任务主要可以分为两个部分,特征表示和分类

A 数据增强

对于包含单个声源的音频,例如来自单个扬声器的语音,数据增强可用于补充声学条件,例如噪声或房间特征。 另一方面,在复调音乐中,重叠的声音经常表现出彼此之间的和声关系,并且数据增强应该保留这个属性以创建合理的附加数据。 在声音事件检测中,对可用音频的操作和组合允许创建重叠事件的新组合。 此外,可以使用多种噪声和脉冲响应条件通过与原始数据混合和卷积来补充数据。 所有这些技术通过将声学可变性添加到训练数据中,有助于声学建模过程的稳健性。

SED 中使用的数据增强方法:
基本的信号处理:

  • 时间拉伸time stretching
  • 音调偏移pitch shifting
  • 动态范围压缩dynamic range compression [13]
    更复杂的处理
  • 与各种脉冲响应的卷积convolution with various impulse responses(以模拟各种麦克风和声学环境))[15]
  • 子帧时移sub-frame time shifting
  • 块混合block mixing [16]
  • 混合mixup [17]
  • 通过在改变 SNR 的同时添加背景噪声来模拟一组噪声条件 [13]

在执行数据增强时,保持标签相对于新生成的数据的正确性很重要。参考注释需要根据扩充方法进行转换。图 5 说明了应用于输入信号及其相应注释的时间拉伸和块混合。

请添加图片描述

在时间拉伸中,音频的持续时间被延长,声音类别的active时间也相应地延长,以解释标签也被时间拉伸。
在块混合中,相同音频记录的两个不同块被加法混合,并且不同声音类的active时间使用 AND 操作组合。
相比之下,在混合数据增强mixup中,原始数据块及其标签组合为加权和,从而产生新的输入数据,其标签不再是二进制的。

B 特征表示

最常用的是log梅尔能量。

在语音和音乐领域的先前工作中,下一个处理步骤是离散余弦变换 (DCT),从而产生梅尔频率倒谱系数 (MFCC)。 DCT将频谱转换为倒谱,其中低阶系数代表粗略的频谱特征,高阶系数与精细细节有关。此外,DCT 具有很强的压缩特性,导致大部分信号能量集中在输出的低阶分量中,这允许将特征向量截断为低阶系数,而不会丢失太多频谱信息。

另一种可用于 SED 的时频表示是恒定 Q 变换 (CQT) Constant-Q transform,其中频率轴是对数 [18]。 CQT 在较低频率下提供更好的光谱分辨率,在较高频率下提供更好的时间分辨率。

也可以使用以不同分析分辨率计算的光谱图[22]。使用具有不同时间或频率分辨率的表示的假设是,不同类型的声音可能受益于不同频率或时间分辨率的建模,例如,短的声音,例如门砰的一声,可以从分析中的高时间分辨率中受益,而像鸟儿的歌声,通过使用高分辨率的频率可以更好地表示声音的谐波分量。

特征学习。无监督特征学习方法尝试直接从数据中学习时频表示,而不像手工制作的特征那样使用有关数据特定属性的专家知识。

六、SED 机器学习

A CRNN

用于声音事件检测的通用网络架构是卷积循环神经网络(CRNN),包含具有特定作用的卷积层和循环层。卷积层充当特征提取器,旨在通过应用于网络输入处呈现的时频表示的连续卷积和非线性变换来学习判别特征。循环层的作用是学习在其输入处呈现的特征序列中的时间依赖性。

图 6 展示了一个由三个卷积块组成的 CRNN 架构,然后是两个循环层和两个前馈层。网络的每个主要组件之后的信息处理和结果表示与结构一起显示在图中。网络接收数据的时频表示作为输入,在这种情况下,对长度为 T 的数据段使用 40 个滤波器计算的 log mel 能量,并输出目标声音事件类别的事件活动概率。

请添加图片描述

由于声音事件检测需要估计声音事件的时间位置,所以必须保持时间轴,因此池化操作只在频率轴上进行。

最后一个卷积块的输出叠加在频率轴上,产生一个 2D 特征表示,然后将其作为输入提供给第一个循环层。

输出层由 sigmoid 单元组成,它们分别为每个目标事件类提供概率。

因为 SED 中的预期输出是每个事件类的二进制激活指标序列,所以网络输出被二进制化。 二值化的阈值可以简单地选择为 0.5,也可以根据数据的统计量针对问题进行优化。 此外,可以对生成的二进制序列进行后处理以形成事件实例。

在声音事件检测中,网络训练旨在最小化真实标签和预测标签之间的交叉熵。 每个训练样本正确类的概率为 1.0,所有其他类的概率为 0.0,而网络估计样本属于每个类的概率,并计算两者之间的交叉熵。

根据任务选择网络架构:在对数据序列进行建模和预测时包括循环层,而在分类任务中不需要保留时间信息,因此网络通常只包括卷积块。进行声音事件检测的网络架构的选择通常基于在类似的音频分类问题中表现良好的架构。网络的大小通常受训练数据的可用性和形式的限制,包括类和训练示例的数量。最常见的结果是 2-5 个卷积块 + 1-2 个 循环层和全连接层[26]。卷积滤波器的最佳数量和大小以及输入时频表示的大小通常是通过使用验证数据集的多次试验来选择。相比之下,在语音识别任务中(speech recognition tasks),有数百小时的数据可用于训练,会遇到数十层的网络,而在声学场景分类中,7-9 个卷积层常见于 20-40 小时的数据集。

B 先进方法

迁移学习

迁移学习为数据稀缺问题提供了不同的解决方案,作为数据增强的替代方案。 主要思想是利用可用于某些任务的大量数据,并使用它来解决目标任务。 因此,训练神经网络来解决预任务(允许学习声学特征的预先设计的任务),然后使用预训练的权重来构建目标任务的网络 [30]、[31]。 预训练层提供的表示称为嵌入embeddings,并且可以被视为下游任务(原始目标任务,学习音频特征将用于解决的任务)的输入特征。 可用于计算嵌入的预训练网络的可用示例包括 VGG-ish [32]、SoundNet [33] 和 L 3 − N e t L^3-Net L3Net [30]。

使用weak label和noisy label (弱监督学习)

  1. 多实例学习 multiple instance learning
    弱监督学习的一种常见方法是多实例学习,其中信号的帧被认为是训练实例,呈现为包(bag)。一个包是一个由多个帧(实例)组成的完整的弱标记示例,因此弱标签附加到包而不是每个包中的实例。包提供目标类的负样本和正样本:负样本包只包含负样本,而正样本包可以同时包含正样本和负样本 [35]。在学习中,神经网络预测实例级别的类概率,而池化函数将实例级别的信息聚合到包级别,用于最小化包级别的损失 [35]。
  2. 基于注意力的神经网络
    它包含一个预测信号中帧重要性的模块[36]。注意机制的作用是帮助模型区分特定 SED 任务中音频剪辑的相关和不相关部分。它在概念上类似于多实例学习,在使用聚合为袋级预测的实例级预测的意义上。包级预测是实例级预测的加权和,权重本质上是注意力函数,它决定了目标类的重要帧的选择。注意机制通常实现为神经网络模型的一层,权重在训练期间学习。
  3. 学生-老师模型
    一种将知识从一个网络转移到另一个网络的知识蒸馏形式。知识蒸馏可以通过教一个较小的模型(学生)通过复制其输出来模仿老师的行为来压缩一个大模型(老师)。在学生-老师模型方法中,学生使用老师的输出而不是参考目标输出进行训练 [38]。
    在弱标记的半监督声音事件检测问题中,总任务被视为两个独立的子任务:一个是音频标记(audio tagging),另一个是边界检测(boundary detection)。一种提出的解决方案是在粗分辨率上训练老师模型,以便在音频标记中表现良好,并指导学生模型使用未标记的数据以更精细的分辨率学习边界检测 [39]。另一种方法使用学生和老师网络,每个网络都有两个分支:一个为音频标记设计的粗时间粒度分支,一个为检测任务设计的细粒度分支 [40],老师模型中的每个分支都指导学生模型中的相应分支进行学习。

七、性能评估

  1. 基于段的评估 segment based evaluation
    如果基本事实(groundtruth)是由人类注释者产生的,那么基本事实的时间是主观的 [10],这使得在太高的时间分辨率下的比较不可靠。 一种方法是在比系统输出分辨率(例如一秒)更粗略的固定时间网格上比较系统输出和参考注释,即基于段的评估。
    评价过程将把声音事件的起始点和偏移点量化到所使用的评价网格中,延长声音事件的长度],这样活动指标就覆盖了声音活动的所有片段,即使是很短的时间。

请添加图片描述

  1. 基于事件的评估 event based evaluation
    在声音实例方面比较系统输出和参考注释,逐个事件检查检测到的声音实例的开始/偏移时间与带注释的声音实例的时间的对应程度。
    如果一个事件实例与相应的参考事件具有相同的标签,并且其时间边界位于参考事件的允许时间范围内,则该事件实例被视为真阳性。

请添加图片描述

比较指标

  • true positives, TP
  • true negatives, TN
  • false positives, FP
  • false negatives, FN
  • precision, P:
    P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
  • recall, R:
    R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
  • F-score, F:
    F = 2 P R P + R F=\frac{2PR}{P+R} F=P+R2PR
  • error rate, E (针对多类别检测):
    ER将FP和FN的联合发生算作一个单一的subtition error: S。S中未计算的FP是剩余的insertions I,而S中未计算的FN是剩余的deletions D, ER 计算为相对于参考事件数 N 的错误总数:
    E R = S + D + I N ER=\frac{S+D+I}{N} ER=NS+D+I
  • false positive rate, FPR:
    F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP

八、相关研究问题

声音事件检测和一些分类任务(如声学场景分类、音乐流派分类和说话人识别)之间最大的区别是,分类是用一个类别标签来描述整个音频记录,而声音事件检测的目的是估计音频记录中声音类别的时间活动。这就要求机器学习架构在连续的片段中产生分类输出,而不是为整个测试音频的持续时间提供单一的分类输出。

目标声音事件可以有相当多样的声学特征,包括瞬态、谐波和类似噪音的成分。语音信号也包含所有这些成分,因此源于语音分析的对数熔体能量可以直接应用于SED。

本文的重点是单通道方法,但使用多个麦克风有可能提高检测精度,还可以对声音事件进行联合检测和定位。

九、未来展望

Active learning

主动学习指的是学习算法从数据集中选择一个未标记的音频样本,并要求注释者对其进行标注。选择的方式是使模型的准确性得到最大的提高。
[47]

Federated learning

作为一种协作式机器学习的形式,从多个用户的数据中提取信息,而不在云中传输或存储任何这些数据。联合学习的目的是利用本地数据学习或改进一个一般的模型,然后只传输模型信息。
目前的应用实例包括图像分类和语言建模任务。然而,它们既需要能够以分布式方式运行的特殊机器学习技术,也需要一个合适的基础设施来进行通信和信息的安全聚合。
在未来可能采用智能家居监控系统和智能个人助理的情况下,声音事件检测也可能需要这种技术。
[48],[49]

zero-shot learning

零点学习不需要来自新类的任何音频样本,使用关于新类的辅助信息,如它们的文本描述,以获得一个声学模型。零点学习阶段包括大量训练类的数据和关于它们的辅助信息,如它们的文本描述属性。在训练期间,一个零点模型被训练成声学特征和辅助信息之间的模型。在使用时,零点模型 通过对音频样本和新类别的辅助信息之间的关系进行建模,来进行新类别的识别。到目前为止,零点学习一直被用于分类,而没有估计类的时间活动,但本文提出的时间分类方法允许将该方法扩展到SED。
[50]

model adaptation

模型适应,即改变模型参数以保持在新条件下的性能,用于提高声音事件检测方法的一般稳健性。例如,可以通过监督的方式,用新环境中的训练数据重新训练现有的网络,或者以无监督的方式,通过改变特征提取,使统计学上的数据与实际情况相符合。

参考引用

上文总结中涉及的引用:
[13] J. Salamon, D. MacConnell, M. Cartwright, P. Li, and J. P. Bello, “Scaper: A library for soundscape synthesis and augmentation,” in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017, pp. 344–348.
链接: link
[15] A. Politis, S. Adavanne, and T. Virtanen, “A dataset of reverberant spatial sound scenes with moving sources for sound event localization and detection,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop, Tokyo, Japan, November 2020.
链接: link
[16] G. Parascandolo, H. Huttunen, and T. Virtanen, “Recurrent neural networks for polyphonic sound event detection in real life recordings,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 6440–6444.
链接: link
[17] M. Dorfer and G. Widmer, “Training general-purpose audio tagging networks with noisy labels and iterative self-verification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018), November 2018, pp. 178–182.
链接: link
[18] R. Serizel, V. Bisot, S. Essid, and G. Richard, “Acoustic features for environmental sound analysis,” in Computational analysis of sound scenes and events, T. Virtanen, M. D. Plumbley, and D. Ellis, Eds. Springer, 2018, ch. 4, pp. 71–101.
链接: link
[22] S. Adavanne, P. Pertila ̈, and T. Virtanen, “Sound event detection using spatial features and convolutional recurrent neural network,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 771–775.
链接: link
[26] A. Mesaros, A. Diment, B. Elizalde, T. Heittola, E. Vincent, B. Raj, and T. Virtanen, “Sound event detection in the DCASE 2017 Challenge,” IEEE/ACM Trans. on Audio, Speech, and Language Processing, vol. 27, no. 6, pp. 992–1006, June 2019.
链接: link
[30] J. Cramer, H. Wu, J. Salamon, and J. P. Bello, “Look, listen, and learn more: Design choices for deep audio embeddings,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3852–3856.
链接: link
[31] S. Jung, J. Park, and S. Lee, “Polyphonic sound event detection using convolutional bidirectional LSTM and synthetic data-based transfer learning,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 885–889.
链接: link
[32] S. Hershey, S. Chaudhuri, D. P. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold et al., “CNN architectures for large-scale audio classification,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 131–135.
链接: link
[33] Y.Aytar,C.Vondrick,andA.Torralba,“SoundNet:Learningsoundrep- resentations from unlabeled video,” in Advances in Neural Information Processing Systems, 2016, pp. 892–900.
链接: link
pp. 609–617.
[35] A. Kumar and B. Raj, “Weakly supervised scalable audio content analysis,” in 2016 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2016, pp. 1–6.
链接: link
[36] Y. Xu, Q. Kong, Q. Huang, W. Wang, and M. Plumbley, “Attention and localization based on a deep convolutional recurrent model for weakly supervised audio tagging,” Proceedings of Interspeech 2017, pp. 3083– 3087, 2017.
链接: link
[38] G. Hinton, O. Vinyals, and J. Dean, “Distilling the knowledge in a neural network,” in NIPS Deep Learning and Representation Learning Workshop, 2015.
链接: link
[39] L. Lin, X. Wang, H. Liu, and Y. Qian, “Guided learning for weakly- labeled semi-supervised sound event detection,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 626–630.
链接: link
[40] J. Yan, Y. Song, L. Dai, and I. McLoughlin, “Task-aware mean teacher method for large scale weakly labeled semi-supervised sound event detection,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 326–330.
链接: link
[47] S. Zhao, T. Heittola, and T. Virtanen, “Active learning for sound event detection,” arXiv preprint arXiv:2002.05033, 2020.
链接: link
[48] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Artificial Intelligence and Statistics. PMLR, 2017, pp. 1273– 1282.
链接: link
[49] J. Konecny, H. B. McMahan, D. Ramage, and P. Richtarik, “Federated optimization: Distributed machine learning for on-device intelligence,” arXiv preprint arXiv:1610.02527, 2016.
链接: link
[50] H. Xie and T. Virtanen, “Zero-shot audio classification based on class label embeddings,” in IEEE Workshop on Applications of Signal Pro- cessing to Audio and Acoustics (WASPAA), 2019, pp. 264–267.
链接: link

  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息论和统计学是两个重要的学科,它们都是研究数据和信息的理论和方法。信息论主要研究信号传输和数据压缩等问题,而统计学则主要研究数据的收集、分析和解释等问题。这两个学科在现代科学和工程中都有着广泛的应用。 信息论是由克劳德·香农于1948年提出的,它主要研究信息的度量、传输和存储等问题。信息论的基本概念包括信息熵、信道容量和编码理论等,这些概念对于通信系统的设计和优化非常重要。在当今的数字通信和互联网应用中,信息论理论和方法被广泛应用于数据压缩、信号处理和网络编码等领域。 统计学则是一门研究数据的收集、分析和解释的学科,它的起源可以追溯到18世纪。在现代科学研究和工程应用中,统计学起着至关重要的作用。统计学主要包括描述统计、推断统计和回归分析等内容,它可以帮助我们从数据中发现规律和趋势,做出科学的预测和决策。 信息论和统计学在许多方面都有着密切的联系和交叉,它们共同构成了数据科学的理论基础。在现代大数据和人工智能的发展趋势下,信息论和统计学的研究和应用也变得越来越重要。因此,深入理解和掌握信息论和统计学的基本原理和方法对于从事相关领域的科研人员和工程师来说都是至关重要的。希望本教程可以帮助读者更好地理解和应用信息论和统计学的知识。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值