【论文阅读】PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

何如千泷

已于 2024-05-28 11:05:53 修改

阅读量1.4k

点赞数

分类专栏： # 音频分类论文阅读文章标签：深度学习 cnn 音频识别 audio

于 2023-09-10 18:29:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42735631/article/details/132794129

版权

论文阅读同时被 2 个专栏收录

24 篇文章

订阅专栏

1 篇文章

订阅专栏

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

在计算机视觉和自然语言处理中，在大规模数据集上预训练的系统已经很好地推广到了几个任务中。然而，在用于音频模式识别的大规模数据集上对预训练系统的研究有限。在本文中，我们提出了在大规模AudioSet数据集上训练的预训练音频神经网络（PANN）。这些PANN被转移到其他与音频相关的任务。我们研究了由各种卷积神经网络建模的PANN的性能和计算复杂性。我们提出了一种称为Wavegram-Logmel-CNN的架构，使用log-mel频谱图和波形图作为输入特征。我们最好的PANN系统在AudioSet标签上实现了最先进的平均精度（mAP）0.439。

1. AUDIO TAGGING SYSTEMS

1.1 CNNs

CNN架构通常通过卷积层来提取特征，对于音频分类而言，通常使用 log-mel频谱图作为输入。即将短时傅里叶变换STFT应用于时频波形图以计算频谱图，然后将mel滤波器组应用于频谱图，最后进行对数运算以提取log-mel频谱图

卷积神经网络架构如下图所示：

深度残差网络中的残差块可以提高模型收敛速度，解决网络过深导致的退化问题。

深度残差网络架构如下图所示：

当模型在便携式设备实现时，计算复杂性是一个重要问题，MobileNets使用深度可分离卷积可以减少模型参数数量。其架构如下图所示：

1.2 one-dimensional CNNs

上面的音频分类系统是基于log-mel频谱图，这是一种人工提取的特征，为了提高音频分类系统的性能，研究人员直接对时域波形图进行识别。

DaiNet将卷积核大小为80，步长为4的一维卷积作用于音频波形图进行特征提取；然后再使用卷积核大小为3，步长为4的意味卷积进行进一步特征提取；最后通过softmax层进行分类预测。其中每层一维卷积后跟着一个池化核大小为4的最大池化层。

LeeNety与DaiNet使用大卷积核不同是使用卷积核大小为3的一维卷积作用于时域波形图，其中每一个一维卷积层后跟着一个尺寸为2下采样层。

1.3 Wavegram-Logmel-CNN

本文将Wavegram和log-mel谱图组合成一个新的表示。通过这种方式，我们可以利用来自时域波形和对数mel频谱图的信息。组合是沿着通道维度进行的。

2. Data augmentation

2.1 Mixup

Mixup是一种通过对数据集中的两个音频片段进行混合来扩充数据集的方法。

对于两段音频 $x_1,x_2$ ，标签为 $y_1,y_2$ 而言，数据增强后数据为：
$\alpha x_1 + (1 - \alpha)x_2$

$\alpha y_1 + (1 - \alpha)y_2$

2.2 SpecAugment

SpecAugment被提出用于统计语音识别的语音数据。SpecAugment使用频率掩蔽和时间掩蔽对音频片段的log-mel频谱图进行操作。

3. EXPERIMENTS

3.1 提高模型的识别准确率的方法

使用Mixup数据增强可以提高模型的识别准确率
减小帧之间的间隔可以提高模型的识别准确率
提高Embedding的大小可以提高模型的识别准确率
提高训练数据集的大小可以提高模型识别准确率
提高采样频率可以提高模型的识别准确率
提高mel组的个数可以提高模型识别准确率

3.2 不同模型比较分析

CNNs架构：网络层数越深，识别准确率越高，为0.431
ResNets架构：ResNet38识别准确率最高，为0.434
MobileNet架构：MobileNetV1识别准确最高，为0.389
One-Dimension CNN架构：Res1dNet31识别准确率最高，为0.365

通过比较可知基于log-mel频谱图的模型架构比基于时域波形图的模型架构的识别准确率要高，而基于Wavegram-Logmel的模型表现最好，mAP为0.439。对于模型参数而言MobileNet架构远低于其他模型架构

论文实现地址： https://github.com/qiuqiangkong/audioset_tagging_cnn

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。