MULTI-DIMENSIONAL FREQUENCY DYNAMIC CONVOLUTION WITH CONFIDENT MEAN TEACHER FOR SED

摘要

近期,卷积神经网络(CNNs)在声音事件检测(SED)中得到了广泛应用。然而,传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题,我们提出了多维频率动态卷积(MFDConv),这是一种新的设计,使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力,这大大增强了卷积核的特征提取能力。此外,为了提高平均教师模型的性能,我们提出了自信平均教师模型,以提高教师产生的伪标签的准确性,并用高置信度标签来训练学生模型。实验结果表明,所提出的方法在DESED真实验证数据集上的PSDS1和PSDS2分别达到了0.470和0.692。

1.引言

声音事件检测(SED)任务旨在检测音频片段中存在的特定声音事件,它已广泛应用于医疗、可穿戴设备和智能安全领域。最近,半监督SED在声音场景与事件检测和分类(DCASE)挑战赛任务4中吸引了越来越多的研究兴趣。

随着深度学习(DL)的发展,SED采纳了各种DL方法并取得了巨大成功。在这些方法中,CNN常用于从音频特征中提取高维表示。然而,基本卷积的特征提取能力是有限的。为了解决这个限制,已经有几次尝试将注意力机制整合到卷积块中,包括SENet、SKNet和CBAM。近期,动态卷积技术因其基于各自注意力动态聚合多个并行卷积核而在优化高效CNN中变得流行。尽管其性能有所提高,动态卷积存在一个关键的限制,即仅有一个维度(卷积核数量)被赋予动态属性,而其他维度被忽视。

此外,这些方法主要是为图像数据设计的,并不完全适用于时频谱图。具体来说,图像在两个维度上都是平移不变的,而时频谱图在频率维度上不是平移不变的。为了解决这个问题,提出了频率动态卷积(FDConv),以释放卷积在频率维度上的平移等变性。FDConv应用频率自适应核来增强卷积的频率依赖性,并在SED任务上取得了有竞争力的结果。

在本文中,我们分别提出了多维频率动态卷积(MFDConv)和自信平均教师(CMT)来应对这两个挑战。首先,为了增强FDConv的特征提取能力,我们将卷积核的频率自适应动态属性扩展到核空间的更多维度。MFDConv利用一种新颖的多维注意力机制和并行策略来学习这些针对卷积核的频率自适应注意力。我们证明了不同维度上的这些注意力是互补的,并且逐步将它们应用于相应的卷积核可以大幅提高基础卷积的表示能力。其次,为了进一步提升MT的性能,我们引入了自信平均教师来解决伪标签准确性问题。特别地,我们对教师预测执行弱强阈值化和事件特定的中值滤波,以提高伪标签的精确度。此外,我们采用置信度加权的BCE损失而不是MSE损失进行一致性训练,以帮助学生模型使用高置信度伪标签进行训练。在DCASE2021 Task4数据集上的实验结果验证了所提方法的优越性能。

2.方法

2.1动态卷积

基本的卷积可以表示为 y = W * x + b,其中 W 和 b 是基础核的权重和偏置。对于动态卷积,它根据输入依赖的注意力动态地聚合多个并行卷积核。从数学上讲,动态卷积可以定义为:

实际上,对于 \(n\) 个卷积核,相应的核空间有4个维度,包括卷积核数量 \(n\)、输入通道 \(c_{in}\)、输出通道 \(c_{out}\) 和空间核大小 \(k \times k\)。然而,动态卷积仅在核空间的一个维度(卷积核数量)上赋予卷积核动态属性,而其他三个维度被忽略。注意力函数 \(\pi_{wi}(x)\) 为卷积核 \(W_i\) 计算一个注意力权重,这意味着它的所有滤波器对于输入都有相同的注意力值。

2.2多维频率动态卷积

其中 \(x \in \mathbb{R}^{T \times F \times c_{in}}\) 和 \(y \in \mathbb{R}^{T \times F \times c_{out}}\) 分别表示输入特征和输出特征;\(W_i \in \mathbb{R}^{k \times k \times c_{in} \times c_{out}}\) 表示第 \(i\) 个卷积核;\(\alpha_{wi} \in \mathbb{R}\) 是第 \(i\) 个卷积核的注意力权重,通过基于输入特征条件的注意力函数 \(\pi_{wi}(x)\) 计算得到。为简化起见,偏置项被省略。

因此,我们将卷积核的频率自适应动态属性扩展到核空间的更多维度。我们的多维频率动态卷积(MFDConv)可以定义如下:

其中,αwi(f) 是卷积核 Wi 的频率自适应注意力权重;αfi(f) ∈ Rcout 和 αci(f) ∈ Rcin 表示沿输出通道维度和输入通道维度计算的新增频率自适应注意力;⊗ 表示沿核空间不同维度的乘法运算。αwi(f)、αfi(f) 和 αci(f) 由包含πwi(x, f)、πfi(x, f) 和πci(x, f) 的多头注意力模块计算得出。请注意,空间核大小 k × k 维度未被使用。

在 MFDConv 中,对于卷积核 Wi:(1)αci(f) 分配频率自适应注意力权重给 cin 个通道;(2)αfi(f) 分配频率自适应注意力权重给 cout 个通道;(3)αwi(f) 分配频率自适应注意力权重给整个卷积核。理论上,这三种频率自适应注意力相辅相成,并将它们应用于相应的卷积核可以显著增强基本卷积的表示能力。MFDConv 的架构如图1所示。

在实现中,我们采用 SE 模块 [3] 来提取频率自适应注意力权重。不同之处在于 MFDConv 具有多个头来分别计算 πwi(x, f)、πfi(x, f) 和 πci(x, f)。具体而言,我们首先沿时间维度应用平均池化,将输入压缩成形状为 F × cin 的特征图。随后,一个 1D 卷积块将特征图压缩到具有降维比 r 的较低维空间。然后有 3 个分支的 1D 卷积层,输出尺寸分别为 F × n、F × cout 和 F × cin。最后,应用 softmax 或 sigmoid 函数来获得归一化的频率自适应注意力权重 αwi(f)、αfi(f) 和 αci(f)。

2.3自信平均教师

传统的均值教师方法可能会受到未标记数据不准确预测的严重影响。因此,我们提出了自信均值教师(CMT)方法来解决伪标签准确性问题。CMT 的核心思想是通过后处理操作纠正教师的不准确预测,并用高置信标签训练学生。CMT 的结构如图2所示。

具体而言,我们首先从教师模型中获得基于片段的预测 y^w ∈ [0, 1]^K 和基于帧的预测 y^s ∈ [0, 1]^(T × K)。这里 T 和 K 分别表示帧数和声音事件类别数。然后设定一个基于片段的阈值 φclip。如果 y^w > φclip,则将 y^w 分配为 1;否则,将 y^w 分配为 0。如果 y^s < φclip,则将 y^s 分配为 0。除了弱阈值,我们还设定了基于帧的阈值 φframe。如果 y^s > φframe,则将 y^s 分配为 1;否则,将 y^s 分配为 0。在强阈值之后,我们使用特定于事件的中值滤波器平滑基于帧的预测 y^s。这些步骤可以表示如下:

 

其中,ỹw 和 ỹs 分别表示基于片段的伪标签和基于帧的伪标签;I(.) 是指示函数;MF 表示中值滤波器。与初始预测相比,伪标签更加可靠,学生模型更难过度拟合伪标签。此外,我们根据预测概率对一致性损失应用置信度权重。一致性损失包括基于片段的一致性损失 `w,con 和基于帧的一致性损失 `s,con。它们的定义如下:

 

这里,K 是声音事件类别数,Ω 是大小为 T × K 的基于帧的概率图。`(.)` 表示伪标签和学生预测之间的二元交叉熵损失。ỹw(k) 和 ỹs(t, k) 分别表示类别 k 的基于片段的伪标签和特定帧和类别 (t, k) 的基于帧的伪标签;fθs(x)w(k) 和 fθs(x)s(t, k) 分别表示来自学生模型 θs 的类别 k 的基于片段的预测和特定帧和类别 (t, k) 的基于帧的预测;cw(k) 和 cs(t, k) 分别表示来自教师模型 θt 的类别 k 的基于片段的预测置信度和特定帧和类别 (t, k) 的基于帧的预测置信度。置信度权重计算如下:

 

加权一致性损失可以训练具有高置信度伪标签的学生模型,并减少不准确伪标签的影响。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值