PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
在计算机视觉和自然语言处理中,在大规模数据集上预训练的系统已经很好地推广到了几个任务中。然而,在用于音频模式识别的大规模数据集上对预训练系统的研究有限。在本文中,我们提出了在大规模AudioSet数据集上训练的预训练音频神经网络(PANN)。这些PANN被转移到其他与音频相关的任务。我们研究了由各种卷积神经网络建模的PANN的性能和计算复杂性。我们提出了一种称为Wavegram-Logmel-CNN的架构,使用log-mel频谱图和波形图作为输入特征。我们最好的PANN系统在AudioSet标签上实现了最先进的平均精度(mAP)0.439。
1. AUDIO TAGGING SYSTEMS
1.1 CNNs
CNN架构通常通过卷积层来提取特征,对于音频分类而言,通常使用 log-mel
频谱图作为输入。即将短时傅里叶变换STFT
应用于时频波形图以计算频谱图,然后将mel
滤波器组应用于频谱图,最后进行对数运算以提取log-mel
频谱图
卷积神经网络架构如下图所示:
深度残差网络中的残差块可以提高模型收敛速度,解决网络过深导致的退化问题。
深度残差网络架构如下图所示:
当模型在便携式设备实现时,计算复杂性是一个重要问题,MobileNets使用深度可分离卷积可以减少模型参数数量。其架构如下图所示:
1.2 one-dimensional CNNs
上面的音频分类系统是基于log-mel
频谱图,这是一种人工提取的特征,为了提高音频分类系统的性能,研究人员直接对时域波形图进行识别。
DaiNet将卷积核大小为80,步长为4的一维卷积作用于音频波形图进行特征提取;然后再使用卷积核大小为3,步长为4的意味卷积进行进一步特征提取;最后通过softmax
层进行分类预测。其中每层一维卷积后跟着一个池化核大小为4的最大池化层。
LeeNety与DaiNet
使用大卷积核不同是使用卷积核大小为3的一维卷积作用于时域波形图,其中每一个一维卷积层后跟着一个尺寸为2下采样层。
1.3 Wavegram-Logmel-CNN
本文将Wavegram
和log-mel
谱图组合成一个新的表示。通过这种方式,我们可以利用来自时域波形和对数mel
频谱图的信息。组合是沿着通道维度进行的。
2. Data augmentation
2.1 Mixup
Mixup是一种通过对数据集中的两个音频片段进行混合来扩充数据集的方法。
对于两段音频
x
1
,
x
2
x_1,x_2
x1,x2,标签为
y
1
,
y
2
y_1,y_2
y1,y2而言,数据增强后数据为:
x
=
α
x
1
+
(
1
−
α
)
x
2
x = \alpha x_1 + (1 - \alpha)x_2
x=αx1+(1−α)x2
y = α y 1 + ( 1 − α ) y 2 y = \alpha y_1 + (1 - \alpha)y_2 y=αy1+(1−α)y2
2.2 SpecAugment
SpecAugment被提出用于统计语音识别的语音数据。SpecAugment使用频率掩蔽和时间掩蔽对音频片段的log-mel
频谱图进行操作。
3. EXPERIMENTS
3.1 提高模型的识别准确率的方法
-
使用
Mixup
数据增强可以提高模型的识别准确率
-
减小帧之间的间隔可以提高模型的识别准确率
-
提高
Embedding
的大小可以提高模型的识别准确率
-
提高训练数据集的大小可以提高模型识别准确率
-
提高采样频率可以提高模型的识别准确率
-
提高
mel
组的个数可以提高模型识别准确率
3.2 不同模型比较分析
-
CNNs
架构:网络层数越深,识别准确率越高,为0.431
-
ResNets
架构:ResNet38
识别准确率最高,为0.434
-
MobileNet
架构:MobileNetV1
识别准确最高,为0.389
-
One-Dimension CNN
架构:Res1dNet31
识别准确率最高,为0.365
通过比较可知基于log-mel
频谱图的模型架构比基于时域波形图的模型架构的识别准确率要高,而基于Wavegram-Logmel
的模型表现最好,mAP
为0.439
。对于模型参数而言MobileNet
架构远低于其他模型架构
论文实现地址: https://github.com/qiuqiangkong/audioset_tagging_cnn