《AST: Audio Spectrogram Transformer》论文

这篇论文的作者是Yuan Gong, Yu-An Chung, James Glass MIT Computer Science and Artifificial Intelligence Laboratory, Cambridge, MA 02139, USA

研究动机

为了做音频分类任务,在CNN的基础上加了注意力机制,如果注意力机制有用,那么可不可以只使用注意力机制就可以获得好的效果?因为CNN并不是必要的。

INTRODUCTION

为了做音频分类任务,提出了AST(audio Spectrogram Transformer)模型,不含CNN架构。用ViT(Vision Transformer)模型迁移到AST。

模型结构

将t秒的波形变换为128维的对数梅尔频谱特征,使用的是25ms的汉明窗,窗移10ms,最终形成的形状是[128,100],之后将频谱分成16x16的小块,重叠为6,论文中有一个计算分成块的数量公式,分成块之后,将每一个块展平成一维的数据,大小是768,怎么展平的?16x16x块数量并且用一个线性投影层。因为Transformer和块序列没有时间信息,所以加入了一个正数embedding,同样是768,为的是获得二维频谱的空间信息。

      输入到网络中,最开始在序列前面加入一个token,[cls],AST只用来做分类任务,所以只用到了Transformer 中的encoder层,而且用的是最原始的结构,没有做任何的修改,这样的优势有2个:第一,Tensorflow 或者Pytorch有内置的Transformer结构,容易实现;第二,原始的结构迁移学习很容易。

      补充一点就是,块的信息被展平为一维信息用的是一个线性层投影,它相当于一维卷积。

      Transformer比CNN强是当数据量变得很大的时候,但是音频数据并没有那么多,所以为了不用CNN,使用迁移学习比较好,它不要求数据量很多。所以现在图片数据集上预训练ViT模型,但是有一些小点需要注意,图片的通道是三维,而音频是一维,所以就需要把维度提上去。同样地,需要归一化操作。另外,频谱的长度是变化的,Transformer也支持变化的输入长度,还可以直接从一个模型迁移到另一个模型。提出一种cut and bi-linear interpolate方法在正向量那。

实验设置

        数据和操作

                AudioSet: 2百万10秒的视频片段和527个标签,训练集,验证集,测试集按照22k,2M,20k来划分。用了数据增强,Adam优化器,batch为12,使用二分类交叉熵损失。分为balanced training, fulling training,前者代表训练一部分数据,后者代表把数据全用于训练,前者的实验数据是:学习率5e-5,25epochs,每5轮学习率减半,10轮停止。后者的实验数据是:学习率1e-5,训练5epochs,在每个epoch学习率减半,2轮之后停止。实验结果如下:

  用不用预训练的区别:

       实验结果 

               让balanced和full的实验重复三次,每次实验设置一样,但随机种子不一样。表中的Ensemble-S:实验三次,相同的设置,不同的随机种子,最后算出结果的平均值。Ensemble-M:让模型用不同的设置,让Ensemble-S中的三个模型和另外用不用的块分离策略的三个模型一起训练。

做了一些对比实验,结果如图:

 patch就是文章中说的块:

 除了这些对比实验,单个变量的对比以外,还在其他的数据集上做了比较:

       ESC-50:2000条5秒的音频,50个类别。ImageNet pretraining (AST-S) ImageNet and AudioSet pretraining (AST-P),用了数据增强,batch为48,Adam优化器,20epoces,学习率分别设置为1e-4,1e-5,每轮以0.85的速度下降,用的是5折交叉验证。
       Speech Commands V2:105829条1秒的音频,35个类别,训练集,验证集,测试集分别为84843,9981,11005. SOTA-S代表没有预训练,SOTA-P代表有预训练,batch为128,Adam优化器,学利率为2.5e-4,每轮以0.85的速度下降,训20轮。 结果如下:

 

结论

       不用CNN的结构也是可以实现语音分类的任务的。

生词

       hybrid model  混合模型

       benchmark  基准

       inductive biases 归纳偏置

       state-of-the-art(SOTA)   

       convolution-free  没有卷积

       converge   收敛

       off-the-shelf  现成的

       cross-modality  交叉模态

       regime  规则

       interpolate  内插

       ablation study  对比实验

       checkpoint   检查点

       indispensable  不可缺少的 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer和LSTM都是常用的深度学习模型,可以用于音频分类任务。 Transformer是一种基于自注意力机制的模型,适用于处理序列数据。它通过在不同位置的序列元素之间建立注意力连接,有效捕捉序列中的长程依赖关系。在音频分类任务中,可将音频信号按时间步划分成一系列离散的片段(如短时傅里叶变换的频谱片段),然后将这些片段作为输入序列,输入到Transformer模型中。Transformer通过多层自注意力和前馈神经网络来学习序列之间的关系,并生成音频分类结果。 LSTM(长短期记忆网络)是一种适用于处理序列数据的循环神经网络(RNN)变种。它通过引入门控单元(如输入门、遗忘门和输出门)来捕捉长期依赖,并避免梯度消失/爆炸问题。在音频分类任务中,可将音频信号按时间步划分成一系列片段,并将这些片段作为LSTM模型的输入序列。LSTM模型会通过时间步的迭代学习序列中的依赖关系,并输出用于音频分类的结果。 在音频分类任务中,使用Transformer和LSTM都可以对音频信号进行建模和分类。Transformer模型可以更好地捕捉长程依赖,适用于处理较长的音频序列;而LSTM模型则通过门控机制可以更好地捕捉序列中的长期依赖。根据任务特点和数据量的不同,可以选择适合的模型进行音频分类,或者结合两种模型进行集成学习,以获得更好的分类性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值