MULTI-DIMENSIONAL FREQUENCY DYNAMIC CONVOLUTION WITH CONFIDENT MEAN TEACHER FOR SED

摘要

近期,卷积神经网络(CNNs)在声音事件检测(SED)中得到了广泛应用。然而,传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题,我们提出了多维频率动态卷积(MFDConv),这是一种新的设计,使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力,这大大增强了卷积核的特征提取能力。此外,为了提高平均教师模型的性能,我们提出了自信平均教师模型,以提高教师产生的伪标签的准确性,并用高置信度标签来训练学生模型。实验结果表明,所提出的方法在DESED真实验证数据集上的PSDS1和PSDS2分别达到了0.470和0.692。

1.引言

声音事件检测(SED)任务旨在检测音频片段中存在的特定声音事件,它已广泛应用于医疗、可穿戴设备和智能安全领域。最近,半监督SED在声音场景与事件检测和分类(DCASE)挑战赛任务4中吸引了越来越多的研究兴趣。

随着深度学习(DL)的发展,SED采纳了各种DL方法并取得了巨大成功。在这些方法中,CNN常用于从音频特征中提取高维表示。然而,基本卷积的特征提取能力是有限的。为了解决这个限制,已经有几次尝试将注意力机制整合到卷积块中,包括SENet、SKNet和CBAM。近期,动态卷积技术因其基于各自注意力动态聚合多个并行卷积核而在优化高效CNN中变得流行。尽管其性能有所提高,动态卷积存在一个关键的限制,即仅有一个维度(卷积核数量)被赋予动态属性,而其他维度被忽视。

此外,这些方法主要是为图像数据设计的,并不完全适用于时频谱图。具体来说&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值