文章为翻译,仅供学习参考
论文原地址:Data Augmentation and Deep Learning Methods in Sound Classification: A Systematic Review
作者:Olusola O. Abayomi-Alli , Robertas Damaševiˇcius , Atika Qazi, Mariam Adedoyin-Oloweand Sanjay Misra 4
论文翻译地址: https://download.csdn.net/download/ggqyh/88815505
摘要
这篇系统文献综述(SLR)的目标是识别并对小数据和使用数据增强方法来增加用于声音(包括语音、讲话和相关音频信号)分类的深度学习分类器所需数据量的当前研究进展进行批判性评价。方法论:本文采用基于PRISMA的标准SLR指南进行,检索了三个文献数据库,分别是Web of Science、SCOPUS和IEEE Xplore。研究结果:通过使用多种关键词组合在过去五年(2017年至2021年)进行的初步检索共找到了131篇论文。为了选择符合本研究范围的相关文章,我们采用了一些筛选排除标准和前后向雪球采样,最终选定了56篇文章。独创性:以往研究存在的不足包括数据不足、标注不够准确的数据、不平衡的数据集、嘈杂的数据集、声音特征呈现不佳以及缺乏有效的增强方法,从而影响了分类器的整体性能,我们在本文中进行了讨论。在对鉴定的文章进行分析后,我们概述了声音数据集、特征提取方法、数据增强技术及其在声音分类研究问题中的应用。最后,我们总结了SLR的摘要,回答了研究问题,并对声音分类任务提出了建议。
1.引言
人工智能(AI)方法在各个科学领域的应用不断增长,在解决现实问题方面发挥着重要作用,特别是在计算机视觉[1]、自然语言处理(NLP)[2]、医疗保健[3]、工业信号处理[4]等各个领域的分类任务中。有趣的是,这些AI方法的成功也扩展到了其他领域,包括语音识别和音乐推荐任务[5]。高效且自动的声音分类系统的需求正在增加,因为它在我们的日常生活中具有重要性。自动声音分类技术广泛应用于监控系统[6]、语音助手[7]、聊天机器人[8]、智能安全设备[9]以及工程[10]、工业[11]、家庭[12]、城市[13]、道路[14]和自然[15]等不同的现实环境中。
机器学习方法,例如随机森林(RF)、决策树(DT)、逻辑回归(LR)、多层感知器(MLP)等,已被应用于声音识别系统[16]。在过去的十年中,包括深度学习方法在内的机器学习算法的进步表明其在提取高级特征方面具有很强的能力,这有助于有效地从原始输入数据中学习复杂的特征,从而提高了分类模型的性能[17]。最近,对这些深度学习算法的改进范式的转变,例如微调超参数、增强丢弃率和正则化、梯度下降的动量方法等[18],在诸如计算机视觉、自然语言处理(NLP)、金融和生物医学成像等许多领域中发挥了重要作用,推动了研究人员在这些领域的贡献[19-22]。
深度学习的出色表现,特别是卷积神经网络(CNN)在模式识别方面的出色表现,让其继续在高效的现代分类任务中产生巨大的影响。最近,深度学习方法在不同类型的声音/音频分类任务中的应用已经取得了很大进展,特别是在环境声音检测[23]、自动语音识别(ASR)[24]、音乐/声学分类[25]、医学诊断[26]等领域。然而,由于缺乏解决音频相关问题所需的数据、嘈杂的音频信号[27]以及工业声音[28]的可用性限制,在使用深度学习方法解决音频/声音相关问题时,仍然面临着性能不佳的困境。考虑到深度学习方法的广泛应用,一些研究人员被吸引将不同的机器学习算法应用于声音分类[29-31]。然而,音频信号具有高维度,这意味着需要超过一千个浮点值来表示一个短音频信号,这提高了探索降维和特征提取方法的需求。
深度学习模型在声音识别系统中可能会受到环境噪音的严重影响,这可能导致详细信息的丢失[32]。开发高效的声音识别系统面临的另一个重要挑战是获取大规模且有良好注释的数据集。此外,在声音分类系统中,数据稀缺性也面临着隐私[33]、道德和法律考虑[34]等挑战。
深度学习模型性能不佳可以归因于以下几个方面:
• 数据不足使得训练深度神经网络变得极为困难,因为音频/声音系统的高效训练和评估仅依赖于大量的训练数据[35]。
• 传统的音频特征提取方法缺乏有效识别更好特征表示的能力,从而影响声音识别的性能[36]。
• 建立高性能声音识别系统的关键挑战在于鲁棒性和泛化能力,一些现有系统由于一些因素如混响、噪声类型、信道等导致场景不匹配而降级[37]。
• 可靠的音频数据注释需要依赖专业知识[38]。
声音分类研究中另一个负面影响研究进展的问题是数据不平衡[39];这对深度学习系统的性能产生了严重影响,降低了其表现水平,因为大多数音频记录容易受到环境噪声的影响[40]。此外,创建一个声音记录数据集需要极大的时间和资源限制;因此,需要数据增强技术来生成综合数据集(图像、声音、文本等),这种方法在改善深度学习模型的性能方面发挥了重要作用。
与流行观点相反,即训练大型数据集对于获得深度架构模型的最佳结果至关重要[41],数据增强在声音分类任务中的进展已经表明它对于改善小数据集的训练模型性能具有一定的一致性[42]。数据增强的需求是不容忽视的,因为先前的研究表明在声音/音频分类任务中应用神经网络模型时[43,44],由于典型的过参数化模型,因此需要更大的数据集来减轻过拟合,并降低对背景噪声和信息冗余的敏感性[45]。此外,神经网络模型的应用高度依赖于在训练过程中初始化和精心调整超参数以改进分类模型[46]。
本文系统评述了声音分类任务中数据增强技术过去、现在和未来的全面趋势。该研究旨在介绍文献中应用的不同数据增强方法,通过定量和定性的统计分析措施展示研究趋势,以应对不足/不平衡数据集,提高数据泛化和检测率。在本文中,基于全面的方法论,系统地评价了文献资料,旨在确定与来源、数据库、特征提取方法、数据增强步骤和分类模型相关的声音分类任务的当前进展和相关研究的进展。
提出了以下研究问题(RQs),以确定系统综述的范围,并提出分析结果,以加强未来关于声音分类的研究,如下所示:
- 基于合理分类任务的现有论文是否适用于具体和既定的实验数据源?
- 使用的数据存储库或数据集源是什么?
- 使用哪些特征提取方法,提取哪些数据?
- 声音分类中应用的不同数据增强技术是什么?