TFECN音频分类的时频增强卷积神经网络

最新推荐文章于 2024-08-08 10:21:41 发布

budangdiyi

最新推荐文章于 2024-08-08 10:21:41 发布

阅读量1k

点赞数 28

文章标签：音视频分类 cnn

本文链接：https://blog.csdn.net/budangdiyi/article/details/135565807

版权

TFECN音频分类的时频增强卷积神经网络

第一章语音增强之《TFECN: Time-Frequency Enhanced ConvNet for Audio Classification》

前言

语音新手入门，学习读懂论文。
本文作者机构是苏州大学计算机信息处理技术省级重点实验室
在这里插入图片描述

一、做了什么

音频分类是指将音频片段映射到一个或多个声音事件类别中，是声信号处理中一个活跃的研究课题。为了证明纯ConvNet仍然可以达到领先的性能，作者引入了时频增强ConvNet (TFECN)，它结合了Transformer的通用架构设计并改进了频谱图特征的卷积。

二、动机

之前很多工作使用Transformer相关的各种方法来提高模型性能，但尚未有工作试图使用这些方法来改进用于音频分类的ConvNet。

三、挑战

使用纯ConvNet仍然可以在音频分类中取得高级性能

如果一个声音事件类别的视觉模式沿频率轴移动，那么模式所代表的类别或语义很可能发生了变化

使用先前工作提供的预训练权值

四、方法

1.模型图

在这里插入图片描述
与时间轴对齐的模式是平移不变的，类似于图像中的对象，这意味着视觉模式沿着时间轴的移动可以被视为图像中对象空间位置的变化。相反，沿频率轴分布的模式不是位移不变的，这意味着如果一个声音事件类别的视觉模式沿频率轴移动，那么模式所代表的类别或语义很可能发生了变化，如图1(a)所示。

2.时频增强卷积神经网络

不同阶段采用步幅为2的3×3 conv的下采样层来分离。
在模型开始时，使用一个由7×7 conv和stride 4组成的patchify层来生成谱图patch。
以识别空间格局为主的conv块体，该块体采用倒瓶颈设计。
用1×1核的点向卷积扩展特征维度，然后用组数等于通道数的深度卷积捕获空间模式，最后用另一个点向卷积恢复特征维度。
Transformer在自注意层之后添加了一个MLP作为补充来改善这个问题。受此启发，作者在倒置瓶颈后添加了额外的MLP，以增加不同特征维度之间的通信。

3.时频增强卷积

特征图中不同位置的相同视觉模式通过相同的权值连接到神经元上，最终产生相同的输出。
这意味着不同位置的模式具有相同的语义。在图像中，这与现实相对应，例如，一只狗从左向右移动。但是，当一个时间-频率模式在频谱图中从低频率移动到高频率时，语义可能会发生变化，例如，从哭到笑。
我们首先沿着频率方向扩展核，直到它覆盖整个频率维度，这样当核沿着频率轴滑动时，连接神经元和特征映射的权值总是不同的。如图1(b)所示。
在填充输入特征图使其大小在conv前后不发生变化后，仍然可以保证输出特征图中最左边和最右边的神经元能够覆盖整个频率维度，如图1©所示。
在这里插入图片描述
把使用这种核的深度卷积称为频率增强卷积(FEConv)。
考虑到时间线索在某些声音事件的识别中也起着重要作用，我们引入了另一种核函数，并将其沿时间方向扩展，以增加时间维度的接受野，使其能够更好地识别时间维度上的移位不变性特征。
使用由TEConv和FEConv共同组成的时频增强卷积(TFEConv)来代替反向瓶颈中的深度卷积。
在这里插入图片描述
使用两个可学习的权重参数wt和wf对TEConv和FEConv的加权输出求和

4.ImageNet pretraining

使用convformer 预训练模型，这个预训练模型的核大小为7×7，不能直接转移到模型中。首先初始化与TEConv和FEConv中大小相同的两个大核，然后使用预训练的小核的权值对两个大核的中心区域分配权值。在这里插入图片描述

五、实验评价

1.数据集

AudioSet最大的音频分类公共数据集，由200多万个10秒音频片段组成。FSD50K是人工标记声音事件的第二大公共数据集。ESC50包含2000个5秒音频片段，并使用50个类别手动标记。

2.消融实验

在这里插入图片描述
消融实验从一个类似mobilenetv2的模型开始，与TFECN相比，该模型有两个简化:去除MLP和用7×7核的深度转换取代TFEConv。由于MLP等效于深度可分离卷积中的点卷积，而倒瓶颈等效于深度卷积，因此我们称该模型为深度可分离卷积网络

3.客观评价

六、结论

介绍了一种用于音频分类的纯卷积神经网络TFECN，它在多个数据集上取得了出色的性能，优于最近基于变压器的模型，这表明纯卷积神经网络仍然可以在音频分类中取得先进的性能。然而，由于训练大核的困难，TFECN过于依赖预训练。在未来，我们将继续探索有效的训练TFECN的方法，使其在不进行预训练的情况下仍能取得优异的性能。

七、知识小结

AP：PR 曲线下面积
mAP：mean Average Precision, 即各类别 AP 的平均值
TP、FP、FN、TNTrue Positive (TP):
查准率（Precision）: TP/(TP + FP)
查全率（Recall）: TP/(TP + FN)二者绘制的曲线称为 P-R 曲线
在这里插入图片描述