自用学习论文之半监督声音事件检测

最新推荐文章于 2025-01-11 16:43:59 发布

budangdiyi

最新推荐文章于 2025-01-11 16:43:59 发布

阅读量530

点赞数 2

文章标签：学习

本文链接：https://blog.csdn.net/budangdiyi/article/details/134035699

版权

基于预训练模型的半监督声音事件检测

第一章语音增强之《SEMI-SUPERVISED SOUND EVENT DETECTION WITH PRE-TRAINED MODEL》

文章目录

基于预训练模型的半监督声音事件检测
前言
一、做了什么
二、动机
三、挑战
- 1、如何将CRNN和PANNs的输出进行融合，提高模型的有效性
- 2、怎样提高预测结果的时间一致性
四、方法
五、实验评价
- 1.消融实验
- 2.实验结果
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。
本文作者机构是北京理工大学信息与电子学院，三星研究院
在这里插入图片描述

一、做了什么

1）从预训练模型PANNs[中提取潜在特征和嵌入特征，并提出两种融合方法来提高模型的有效性。
2)为了提高预测结果的时间一致性，我们提出了一个加权时间对比损失函数。

二、动机

自动语音识别、音频标注(At)等领域结合预训练模型已经推进到研究的进展，并提出了许多优秀的预训练模型。在SED任务中使用预训练模型的相关研究很少，作者注意到AT任务的目的是检测语音信号中包含的所有目标事件，这与SED任务类似。

三、挑战

1、如何将CRNN和PANNs的输出进行融合，提高模型的有效性

2、怎样提高预测结果的时间一致性

四、方法

1.模型图

在这里插入图片描述
本文采用的crnn包含7个卷积块、1个Bi-GRU层、一个融合模块和一个分类器。我们使用动态频率卷积(FDY-Conv)代替普通的CNN来减少第2到第7个卷积层的平移不变性。将GRU输出特征和预训练模型pann的嵌入特征融合并输入到[11]中使用的分类器中，以预测类别和时间戳。

att-mean是指一种基于注意力机制的标签传播算法。该算法使用已有的少量标记数据和大量未标记数据进行训练，以提高模型的性能。

2.PANNS和Fuse

在AT任务中，预训练的模型pann在Audioset上获得了优异的性能，该任务仅使用CNN对音频进行标记，并且pann的结构保证了输入输出形状在时间维度上能够匹配。
pann的核心是一个名为WavegramLogmel-CNN的模块，该模块将从CNN中提取的波形图与log-mel谱图结合成一个新的表示形式。这样就可以同时利用时域波形和对数谱图的信息。

a）在维度匹配后将pann的嵌入特征(T1×2048)和潜在特征(T2×256)的权重分别为0.2和0.8。通过平均池化层对pann的嵌入特征进行下采样，通过FC层在特征通道上将两个特征减小到10个。两个特征所拥有的信息在一帧内是互补的，通过将更准确的时间信息传递给分类器，可以提高模型的检测能力。
b)在融合前对嵌入的时间维进行下采样，在融合后跟踪GRU层以增强时间特征。GRU的输出受到嵌入特征中包含的类信息的影响，从而减少了分类器输出中事件类别之间的混淆。

3.Weight Raised Temporal Contrastive Loss加权时间对比损失

由于在SED任务中广泛使用的损失函数BCE和MSE对事件边界不敏感，提出了在CNN的ground truth和output之间应用损失函数TCL来提高模型在事件边界处的灵敏度。利用依赖于帧间相关性的损失函数TCL使模型学习时间相干性，利用MSE和BCE使预测结果接近于真实值。
然而，模型在早期训练阶段的强随机性严重影响了特征帧之间的相关性，导致TCL的输出在数值上巨大，在TCL上使用固定权值会使模型难以收敛。
提出了一个加权时间对比损失函数wr-TCL。
在这里插入图片描述
α和β是控制附加损失项贡献的超参数，我们将α设为0.1，β设为0.03
lA(x)为指标函数，∥·∥p为Lp范数。
z和y分别表示模型的预测结果和真实值。
z的余弦距离zi
e表示当前epoch
应根据边界条件求得a和b的具体值

4.数据集

DCASE 2021国内环境声事件检测(DESED)数据集上进行，该数据集由真实声场景和合成声场景组成。分为3个子集:弱标记、域内未标记、合成数据集。
SED模型的输入特征是从采样率为16kHz的10秒音频数据中提取的具有128个Mel bin的对数Mel谱图。

五、实验评价

1.消融实验

在这里插入图片描述
其中最好的PSDS1和PSDS2分别提高了8.5%和9.1%。

2.实验结果

在这里插入图片描述

在这里插入图片描述
预训练的特征有助于模型进行更准确的检测。预训练的特征可以有效地补偿由于数据不平衡对模型的影响。

六、结论

作者提出了一种加权时间对比损失和两种特征融合方法:嵌入特征和潜在特征。pann的嵌入特征具有潜在特征难以获得的信息，提高了模型的检测能力，减少了预测结果中事件类别之间的混淆。作者提出的模型在公共评估数据集上获得的PSDS分数优于以前的获胜系统，清楚地表明了作者提出的方法的能力。

七、知识小结

声音事件检测（Sound Event Detection，简称SED）是音频处理领域的一个子领域，其主要目标是在连续的声音流中自动检测和识别特定的声音事件。这些声音事件可以包括各种自然和人为产生的声音，例如汽车鸣笛、狗叫、人类语音、音乐、机械噪声等。
声音事件检测可以进一步分为两个主要任务：
音事件识别（Sound Event Recognition）：这个任务的目标是确定声音流中是否存在特定的声音事件。这通常涉及到对声音信号的特征提取和分类，可以使用各种机器学习或深度学习方法，如支持向量机（SVM）、随机森林（RF）、卷积神经网络（CNN）、循环神经网络（RNN）等。
音事件定位（Sound Event Localization）：这个任务的目标是确定已识别的声音事件在声音流中的具体位置，也就是开始和结束的时间点。这通常涉及到对声音信号的时间序列分析，需要处理声音信号的时变性和非平稳性。

音频标注（Audio Annotation）是一种为音频数据添加元数据或信息的过程，这些信息描述了音频中的特定内容、特性或事件。音频标注的目标是提供更丰富的上下文信息，以帮助人类用户或计算机程序理解和处理音频数据。

Frequency Dynamic Convolution频率动态卷积，在频率域上应用了动态卷积。不同的频率可以有不同的卷积核，从而能够更好地捕捉音频信号的频率变化。

PSDS（Predictive Mean Square Distance）是一种用于评价目标跟踪器性能的指标，通常用于多目标跟踪任务中。