HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMERFOR SOUND CLASSIFICATION AND DETECTION

最新推荐文章于 2025-04-22 21:43:37 发布

蔡栖月

最新推荐文章于 2025-04-22 21:43:37 发布

阅读量1.5k

点赞数 34

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/ggqyh/article/details/136098693

版权

本文介绍了一种新型的音频分类模型HTS-AT，它通过分层结构和词元-语义模块优化Transformer，减少GPU内存需求和训练时间，同时支持事件检测。HTS-AT在AudioSet、ESC-50和SpeechCommandV2上表现出色，且在事件定位上超越了基于CNN的模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章为翻译，仅供学习参考

论文原地址：2202.00874.pdf (arxiv.org)

作者：Ke Chen, Xingjian Du , Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov

摘要

音频分类是将音频样本映射到相应标签的重要任务。最近，在这个领域中采用了具有自注意机制的Transformer模型。然而，现有的音频Transformer模型需要大量的GPU内存和长时间的训练，并且依赖于预训练的视觉模型以实现高性能，这限制了模型在音频任务中的可扩展性。为了解决这些问题，我们引入了HTS-AT：一种具有分层结构的音频Transformer，以减小模型大小和训练时间。它还结合了一个词元-语义模块，将最终输出映射到类别特征图，从而使得模型能够进行音频事件检测（即时间定位）。我们在三个音频分类数据集上评估了HTS-AT，在AudioSet和ESC-50上取得了最新的最先进结果，并在Speech Command V2上与最先进结果相当。它在事件定位方面也比先前基于CNN的模型表现更好。此外，HTS-AT只需要先前音频Transformer模型参数的35％和训练时间的15％。这些结果证明了HTS-AT的高性能和高效率。

1.引言

音频分类是一项音频检索任务，旨在学习从音频样本到其相应标签的映射关系。根据音频的类别不同，它涉及声音事件检测 [1]、音乐乐器分类 [2] 等。它为许多下游应用奠定了基础，包括音乐推荐 [3]、关键词检测 [4]、音乐生成 [5, 6] 等。

随着人工智能领域的蓬勃研究，我们在音频分类方面取得了显著的进展。在数据收集方面，许多不同类型的音频数据集（例如AudioSet [7]、ESC-50 [8]、Speech Command [4]等）为模型在不同子任务上的训练和评估提供了平台。在模型设计方面，基于神经网络的模型使得音频分类任务蓬勃发展。卷积神经网络（CNNs）在这一领域被广泛应用，如DeepResNet [9]、TALNet [10]、PANN [11]和PSLA [12]。这些模型利用CNN来捕捉音频频谱图上的特征，并通过设计网络的深度和广度进一步提高性能。最近，通过将Transformer结构 [13]引入音频分类，音频谱转换器（AST）[14]通过自注意机制和来自计算机视觉的预训练模型进一步实现了最佳性能。在本文中，我们通过首先分析AST中尚未解决的问题，对基于Transformer的音频分类模型迈出了更进一步的步伐。

首先，由于Transformer将音频频谱图视为完整的序列数据，AST在训练时需要很长时间，并且占用大量GPU内存。实际上，使用四个12GB的GPU在完整的AudioSet上训练大约需要一周的时间。提高训练速度的一种方法是在计算机视觉中使用ImageNet [15]预训练模型。然而，这也限制了模型在预训练超参数上的应用，降低了其在更多音频任务中的可扩展性。事实上，我们发现在没有预训练的情况下，AST只能达到基准性能（在AudioSet上的mAP=0.366），这引起了我们对其在音频数据上的学习效率的关注。其次，AST使用一个类词元（CLS）来预测标签，导致无法预测音频样本中事件的开始和结束时间。大多数基于CNN的模型通过经验性地将倒数第二层的输出作为事件存在图进行帧级定位。这启发我们设计了一个模块，使得音频Transformer的每个输出标记都能意识到事件的语义含义（即一个词元-语义模块 [16]）&