AST：Audio Spectrogram Transformer

最新推荐文章于 2024-08-15 09:34:32 发布

Aidanmomo

最新推荐文章于 2024-08-15 09:34:32 发布

阅读量6.9k

点赞数 6

本文链接：https://blog.csdn.net/aidanmo/article/details/122297386

版权

本文介绍了AST模型，一种无卷积、仅基于注意力机制的音频分类方法。该模型在多个音频分类任务上取得最佳性能，支持可变长度输入，且结构简单、参数少、收敛快。通过ImageNet预训练和适应性位置编码调整，AST在AudioSet等数据集上实现State-of-the-Art(SOTA)效果。研究还进行了消融实验，验证了预训练、位置编码策略和patch尺寸等因素对模型性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

0. Abstract
1. Introduction
2. Audio spectrogram transformer
- 2.1 Model architecture
- 2.2 ImageNet Pretraining
3. Experiments
- 3.1 AudioSet Experiments

0. Abstract

该文发表于Interspeech2021。
进来，CNN网络作为主要模块，广泛应用于端到端的语音分类模型中，旨在学习从音频频谱图到对应标签的直接映射。为了更好地捕获远距离全局依赖性（上下文），最近的发展趋势是在CNN之上增加自注意力机制，形成CNN-注意力混合模型。但是，目前尚不清楚单独的使用CNN模型或者注意力网络模型就足以在音频分类中获得良好的性能。
本文的主要工作就是提出了首个无卷积、单纯基于注意力机制的音频分类模型（借鉴ViT那套做法），本文在多个音频分类任务上进行了评测，均实现了SOTA性能。

1. Introduction

本文提出了AST: Audio Spectrogram Transformer, a convolution-free, purely attention-based model。
AST模型的优势：

AST模型在多个分类任务和数据集上获得了最佳性能；
AST支持可变长度的输入，并且可以在不改变网络架构的情况下应用于不同的任务；
与当前性能最好的CNN-attention混合模型相比，AST具有更简单的架构，更少的参数量，在训练中收敛更快。

2. Audio spectrogram transformer

2.1 Model architecture

在这里插入图片描述
图1展示了AST网络架构，首先将t秒时长的语音片段转换为128维的log梅尔谱特征，采用Hamming窗，窗长25ms，hop_size为10ms。得到大小为128 X 100t的谱图，输入到AST中。之后，将谱图分割成N个大小为16 X 16的patches，在时间和频率维度上的重叠打下为6，得到