A survey of Deep Learning for Polyphonic Sound event detection

本文回顾了深度学习在声音事件检测(SED)领域的应用进展。SED旨在识别真实环境中的多种音频事件及其时间位置。近年来,深度学习技术如卷积神经网络(CNN)和循环神经网络(RNN)在SED任务中取得了显著成果。
摘要由CSDN通过智能技术生成

摘要

深度学习在计算机视觉,语音识别和自然语言处理等各种机器学习问题上取得了很好的成果。声音事件检测(SED)是关于识别真实环境中的音频事件的,近来引起了很多关注。在对SED问题应用深度学习技术时,许多工作都取得了成功,如2016-2017年声学场景与事件检测与分类(DCASE)挑战中所见。在本文中,我们将对SED问题进行回顾并讨论针对该问题的不同深度学习方法。

介绍

深度学习的发展 - 从大脑的结构和功能中汲取灵感 - 极大地推动了诸如语音识别[1,2],图像识别[3]和自然语言处理等复杂问题技术的发展 [4]。深度学习是指由许多层抽象数据表示的学习模型组成的人工神经网络。深度学习通过使用反向传播方法来展示如何改变输入信号的内部参数以产生期望的输出信号,从而在大数据集中学习复杂结构方面效果表现明显。

声音事件检测(SED)的任务涉及从真实生活环境中对声音事件进行定位和分类,例如婴儿哭闹,人走路和狗叫声。换句话说,SED的目标是估计每个事件的开始时间和结束时间,并为音频记录中的每个事件提供文本描述符。SED有两个主要任务,包括单音声音事件检测和多声音事件检测。单声音事件检测用于检测每个时间最突出的声音事件,而多声音事件检测则识别场景中重叠的声音事件以及单个声音事件。与单声音事件识别相比,由于多声音事件识别的录音在同一时间存在大量重叠声音事件,因此多声音事件识别呈现更多挑战。检测同一时间内发生的所有事件是一项挑战。图1描述了多声音事件识别的任务,这是本文主要介绍的主题。

  在过去的十年里,对声音事件识别问题提出了很多方法。例如,几种利用隐马尔可夫模型(GMM-HMM)的高斯混合模型[5,6]和一对非负矩阵分解[7]的方法已经解决了多音事件识别的问题。最近,许多深度学习方法已被提出用于声音事件检测问题,并被认为是SED问题的前沿方法。在[8],深度神经网络架构被使用(DNN),并在精度方面大大改善了先前的方法。然而,由于时间信息仅限于短时间窗口,所以这种具有许多中间隐藏层的结构 - 人工神经网络本身并不适合于表示时间序列输入,例如音频,视频或文本。这个问题已经通过使用两个更强大的神经网络来解决,即卷积神经网络(CNN)和循环神经网络(RNN)。他们已经应用于SED并在SED任务中表现出色[8,9,10,11,12,13,14,15,16]。此外,CNN和RNN在模型[17,18]中的组合显示优于以前的SED方法。

在本文中,我们将介绍深度学习在SED问题中的应用。几个SED调查已经出版,例如Stowell等人的工作。[19]。然而,他们只是总结了使用HMM和NMF来检测声音事件。他们缺乏使用深度学习方法在SED问题上。在这项工作中,我们对使用深度学习SED的方法进行了回顾并讨论了他们的表现。

在本文的其余部分安排如下。在第二节中,我们回顾了大多数现有解决SED问题的深度学习方法的背景。第三节描述了关于深度学习方法的总结。最后,第四节给出结论。

总结

在这项工作中,我们回顾了使用深度学习方法进行声音事件检测任务。与其他调查相比,本文将重点放在深度学习这样一个不断深入的话题上,并利用深度学习方法介绍最新和最近的SED作品。我们还介绍了基准SED数据集和用于评估SED任务的指标的文献。

### 多声部音乐中的歌唱声音记谱框架 多声部音乐(Polyphonic Music)涉及多个独立旋律线的同时演奏或演唱。对于歌唱声音的自动转录技术而言,其核心目标是从音频信号中提取出各个音高及其对应的起始时间与持续时长[^1]。这种技术通常被分为几个主要部分:首先是特征提取阶段,在这一过程中会利用短时傅里叶变换 (STFT) 或梅尔频率倒谱系数 (MFCCs)[^2] 来捕捉频域特性;其次是模型预测环节,这可能依赖于深度学习架构如卷积神经网络(CNNs),循环神经网络(RNNs),或者两者的组合来实现更精确的结果。 为了构建一个多声部音乐歌唱声音的记谱框架,可以考虑以下几个方面: #### 数据预处理 数据准备是任何机器学习项目的基础工作之一。针对多声部音乐的数据集需要特别注意标注质量以及多样性覆盖范围。例如,MIR-ST-500 是一个公开可用的数据集合,它包含了多种风格的人声表演片段,并配有详细的 MIDI 文件作为参考标准[^3]。 ```python import librosa y, sr = librosa.load('audio_file.wav') mfccs = librosa.feature.mfcc(y=y, sr=sr) print(mfccs.shape) ``` 上述代码展示了如何使用 Librosa 库计算 MFCC 特征向量的一个简单例子。 #### 声学建模 在设计算法时可以选择不同的方法论路径。一种常见的方式是以帧为基础进行分类任务——即把每一小段时间窗口内的输入映射到一组潜在激活音符上。这种方法可以通过 softmax 层输出概率分布表示每个时刻可能存在哪些音阶[^4]。 另一种思路则是采用序列到序列(seq2seq) 的方式直接生成乐谱形式的目标字符串描述整个曲目结构变化过程。此方案往往需要用到注意力机制增强长期依赖关系捕获能力[^5]。 #### 后处理优化 即使有了强大的前端检测器,终得到的原始估计也可能存在一些瑕疵比如过分割现象等问题因此还需要经过一系列平滑操作才能获得更加贴近真实情况的表现效果。常用的策略包括但不限于动态规划法调整边界位置参数设定阈值过滤掉孤立点等等[^6]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值