摘要
深度学习在计算机视觉,语音识别和自然语言处理等各种机器学习问题上取得了很好的成果。声音事件检测(SED)是关于识别真实环境中的音频事件的,近来引起了很多关注。在对SED问题应用深度学习技术时,许多工作都取得了成功,如2016-2017年声学场景与事件检测与分类(DCASE)挑战中所见。在本文中,我们将对SED问题进行回顾并讨论针对该问题的不同深度学习方法。
介绍
深度学习的发展 - 从大脑的结构和功能中汲取灵感 - 极大地推动了诸如语音识别[1,2],图像识别[3]和自然语言处理等复杂问题技术的发展 [4]。深度学习是指由许多层抽象数据表示的学习模型组成的人工神经网络。深度学习通过使用反向传播方法来展示如何改变输入信号的内部参数以产生期望的输出信号,从而在大数据集中学习复杂结构方面效果表现明显。
声音事件检测(SED)的任务涉及从真实生活环境中对声音事件进行定位和分类,例如婴儿哭闹,人走路和狗叫声。换句话说,SED的目标是估计每个事件的开始时间和结束时间,并为音频记录中的每个事件提供文本描述符。SED有两个主要任务,包括单音声音事件检测和多声音事件检测。单声音事件检测用于检测每个时间最突出的声音事件,而多声音事件检测则识别场景中重叠的声音事件以及单个声音事件。与单声音事件识别相比,由于多声音事件识别的录音在同一时间存在大量重叠声音事件,因此多声音事件识别呈现更多挑战。检测同一时间内发生的所有事件是一项挑战。图1描述了多声音事件识别的任务,这是本文主要介绍的主题。
在过去的十年里,对声音事件识别问题提出了很多方法。例如,几种利用隐马尔可夫模型(GMM-HMM)的高斯混合模型[5,6]和一对非负矩阵分解[7]的方法已经解决了多音事件识别的问题。最近,许多深度学习方法已被提出用于声音事件检测问题,并被认为是SED问题的前沿方法。在[8],深度神经网络架构被使用(DNN),并在精度方面大大改善了先前的方法。然而,由于时间信息仅限于短时间窗口,所以这种具有许多中间隐藏层的结构 - 人工神经网络本身并不适合于表示时间序列输入,例如音频,视频或文本。这个问题已经通过使用两个更强大的神经网络来解决,即卷积神经网络(CNN)和循环神经网络(RNN)。他们已经应用于SED并在SED任务中表现出色[8,9,10,11,12,13,14,15,16]。此外,CNN和RNN在模型[17,18]中的组合显示优于以前的SED方法。
在本文中,我们将介绍深度学习在SED问题中的应用。几个SED调查已经出版,例如Stowell等人的工作。[19]。然而,他们只是总结了使用HMM和NMF来检测声音事件。他们缺乏使用深度学习方法在SED问题上。在这项工作中,我们对使用深度学习SED的方法进行了回顾并讨论了他们的表现。
在本文的其余部分安排如下。在第二节中,我们回顾了大多数现有解决SED问题的深度学习方法的背景。第三节描述了关于深度学习方法的总结。最后,第四节给出结论。
总结
在这项工作中,我们回顾了使用深度学习方法进行声音事件检测任务。与其他调查相比,本文将重点放在深度学习这样一个不断深入的话题上,并利用深度学习方法介绍最新和最近的SED作品。我们还介绍了基准SED数据集和用于评估SED任务的指标的文献。