自用学习论文之半监督声音事件检测

基于预训练模型的半监督声音事件检测

第一章 语音增强之《SEMI-SUPERVISED SOUND EVENT DETECTION WITH PRE-TRAINED MODEL》



前言

语音新手入门,学习读懂论文。
本文作者机构是北京理工大学信息与电子学院,三星研究院
在这里插入图片描述


一、做了什么

1)从预训练模型PANNs[中提取潜在特征和嵌入特征,并提出两种融合方法来提高模型的有效性。
2)为了提高预测结果的时间一致性,我们提出了一个加权时间对比损失函数。

二、动机

自动语音识别、音频标注(At)等领域结合预训练模型已经推进到研究的进展,并提出了许多优秀的预训练模型。在SED任务中使用预训练模型的相关研究很少,作者注意到AT任务的目的是检测语音信号中包含的所有目标事件,这与SED任务类似。

三、挑战

1、如何将CRNN和PANNs的输出进行融合,提高模型的有效性

2、怎样提高预测结果的时间一致性

四、方法

1.模型图

在这里插入图片描述
本文采用的crnn包含7个卷积块、1个Bi-GRU层、一个融合模块和一个分类器。我们使用动态频率卷积(FDY-Conv)代替普通的CNN来减少第2到第7个卷积层的平移不变性。将GRU输出特征和预训练模型pann的嵌入特征融合并输入到[11]中使用的分类器中,以预测类别和时间戳。

att-mean是指一种基于注意力机制的标签传播算法。该算法使用已有的少量标记数据和大量未标记数据进行训练,以提高模型的性能。

2.PANNS和Fuse

在AT任务中,预训练的模型pann在Audioset上获得了优异的性能,该任务仅使用CNN对音频进行标记,并且pann的结构保证了输入输出形状在时间维度上能够匹配。
pann的核心是一个名为WavegramLogmel-CNN的模块,该模块将从CNN中提取的波形图与log-mel谱图结合成一个新的表示形式。这样就可以同时利用时域波形和对数谱图的信息。

a)在维度匹配后将pann的嵌入特征(T1×2048)和潜在特征(T2×256)的权重分别为0.2和0.8。通过平均池化层对pann的嵌入特征进行下采样,通过FC层在特征通道上将两个特征减小到10个。两个特征所拥有的信息在一帧内是互补的,通过将更准确的时间信息传递给分类器,可以提高模型的检测能力。
b)在融合前对嵌入的时间维进行下采样,在融合后跟踪GRU层以增强时间特征。GRU的输出受到嵌入特征中包含的类信息的影响,从而减少了分类器输出中事件类别之间的混淆。

3.Weight Raised Temporal Contrastive Loss加权时间对比损失

由于在SED任务中广泛使用的损失函数BCE和MSE对事件边界不敏感,提出了在CNN的ground truth和output之间应用损失函数TCL来提高模型在事件边界处的灵敏度。利用依赖于帧间相关性的损失函数TCL使模型学习时间相干性,利用MSE和BCE使预测结果接近于真实值。
然而,模型在早期训练阶段的强随机性严重影响了特征帧之间的相关性,导致TCL的输出在数值上巨大,在TCL上使用固定权值会使模型难以收敛。
提出了一个加权时间对比损失函数wr-TCL。
在这里插入图片描述
α和β是控制附加损失项贡献的超参数,我们将α设为0.1,β设为0.03
lA(x)为指标函数,∥·∥p为Lp范数。
z和y分别表示模型的预测结果和真实值。
z的余弦距离zi
e表示当前epoch
应根据边界条件求得a和b的具体值

4.数据集

DCASE 2021国内环境声事件检测(DESED)数据集上进行,该数据集由真实声场景和合成声场景组成。分为3个子集:弱标记、域内未标记、合成数据集。
SED模型的输入特征是从采样率为16kHz的10秒音频数据中提取的具有128个Mel bin的对数Mel谱图。

五、实验评价

1.消融实验

在这里插入图片描述
其中最好的PSDS1和PSDS2分别提高了8.5%和9.1%。

2.实验结果

在这里插入图片描述

在这里插入图片描述
预训练的特征有助于模型进行更准确的检测。预训练的特征可以有效地补偿由于数据不平衡对模型的影响。


六、结论

作者提出了一种加权时间对比损失和两种特征融合方法:嵌入特征和潜在特征。pann的嵌入特征具有潜在特征难以获得的信息,提高了模型的检测能力,减少了预测结果中事件类别之间的混淆。作者提出的模型在公共评估数据集上获得的PSDS分数优于以前的获胜系统,清楚地表明了作者提出的方法的能力。

七、知识小结

声音事件检测(Sound Event Detection,简称SED)是音频处理领域的一个子领域,其主要目标是在连续的声音流中自动检测和识别特定的声音事件。这些声音事件可以包括各种自然和人为产生的声音,例如汽车鸣笛、狗叫、人类语音、音乐、机械噪声等。
声音事件检测可以进一步分为两个主要任务:
音事件识别(Sound Event Recognition):这个任务的目标是确定声音流中是否存在特定的声音事件。这通常涉及到对声音信号的特征提取和分类,可以使用各种机器学习或深度学习方法,如支持向量机(SVM)、随机森林(RF)、卷积神经网络(CNN)、循环神经网络(RNN)等。
音事件定位(Sound Event Localization):这个任务的目标是确定已识别的声音事件在声音流中的具体位置,也就是开始和结束的时间点。这通常涉及到对声音信号的时间序列分析,需要处理声音信号的时变性和非平稳性。

音频标注(Audio Annotation)是一种为音频数据添加元数据或信息的过程,这些信息描述了音频中的特定内容、特性或事件。音频标注的目标是提供更丰富的上下文信息,以帮助人类用户或计算机程序理解和处理音频数据。

Frequency Dynamic Convolution频率动态卷积,在频率域上应用了动态卷积。不同的频率可以有不同的卷积核,从而能够更好地捕捉音频信号的频率变化。

PSDS(Predictive Mean Square Distance)是一种用于评价目标跟踪器性能的指标,通常用于多目标跟踪任务中。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值