声音事件检测metric：PSDS

最新推荐文章于 2024-10-24 23:57:07 发布

Maestro_T

最新推荐文章于 2024-10-24 23:57:07 发布

阅读量2.1k

点赞数

分类专栏：音频文章标签：人工智能声音事件检测

本文链接：https://blog.csdn.net/Maestro_T/article/details/128438293

版权

该文提出了一种新的声音事件检测评估框架，克服了传统collar-based方法的局限，引入了检测容忍度准则（DTC）、地面真相交集准则（GTC）和交叉触发容忍度准则（CTTC）。通过多声道ROC曲线和PSDS指标，该框架允许对声音事件检测系统进行独立于操作点的比较，并考虑了不同应用的用户体验需求。该方法在DCASE 2019年任务4中得到验证，揭示了对声音事件定义的主观性、操作点依赖性以及数据偏差的理解的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文；A FRAMEWORK FOR THE ROBUST EVALUATION OF SOUND EVENT DETECTION

Abstract

这项工作为多声道声音事件检测（SED）系统的性能评估定义了一个新的框架，它克服了传统的collar-based事件决定、事件F-cores和事件错误率的限制。拟议的框架引入了对事件检测的定义，该定义对标签的主观性更为稳健。它还采用了多声道接收器操作特性（ROC）曲线，以提供比F1分数更全面的系统性能洞察力，并建议将这些曲线简化为单一的多声道声音检测分数（PSDS），这允许系统独立于操作点（OPs）进行比较。所提出的方法还能更好地了解不同声音类别的数据偏差和分类稳定性。此外，它可以根据不同的应用进行调整，以满足各种用户体验要求。通过重新评估DCASE 2019年任务4中的baseline和两个表现最好的系统，证明了拟议方法的好处。

Introduction

在[9,10]中提出了按事件划分的错误率和按段划分的错误率，并在最近的DCASE版本[5-8]中部署，作为以前基于帧的衡量标准[4]的一个进步。然而，他们目前的形式仍然忽略了以下关键问题。

对操作点的依赖性：在同一指标下，具有不同决策阈值的同一系统可能得到不同的性能排名。换句话说，这种指标将声音事件建模的评价与操作点调整的评价混为一谈[11]。这个问题在信号检测理论中得到了很好的研究，特别是在二元分类、关键词识别和说话人识别中[12-14]，其中ROC曲线[15]、检测误差权衡（DET）曲线[16]或曲线下面积 (AUC)指标[17]被用来评估一个给定系统在一系列操作点上的整体性。然而，这种做法还没有被SED界广泛采用。

声音事件的定义：[9、10] 中定义的基于事件的指标依赖于collar，collar是对检测到的事件相对于标记的ground truth事件 [5-8] 的开始和结束时间的约束。 collar的使用本质上非常强调声音事件的开始和结束时间，而这些时间可能在人类标注员的主观反馈。因此，为了模型的稳定性，评估标准应该为解释实时ground truth和检测时间的时间结构留出足够的空间。在这方面，[18] 提议通过依赖实时ground truth和检测到的事件之间的交集百分比来决定时间序列数据异常检测的真阳性（TPs）和误报（FPs）

多类系统中的先验概率、假阳性和交叉触发器：交叉触发器（CTs）cross-trigger是与多类系统中另一个标记的类别相匹配的假阳性子集。将CTs的行为与FPs的原始数量区分开来，可以深入了解数据的偏差，对于声学上相似的声音类别尤其如此。事实上，多类评估数据集可能会变得有偏见，即对某些目标类的TP进行可靠评估所需的数据量可能会与现场先验不一致。例如，破窗玻璃在实践中很少发生，然而对破窗玻璃的TP的可靠评价需要大量的阳性类样本，这又可能人为地增加其他冲击性类的FP计数。因此，对CT的核算有助于分析FP是否是由数据偏差而非声学模型缺陷造成的。

Background

2.1 声音事件检测的定义

Definition1(Event-Based SED Evaluation Task)

$Y=U_{c∈C } Y_c$ 是一个数据集，它是每个类别c∈C的ground truth子集的联合
定义为 $Y_c = \{y_i = (t_{s,i}, t_{e,i}, c_i): c_i = c\}$
其中每个真实标签 $y_i$ 是由其类别 $c_i$ 、开始时间 $t_{s,i}$ 和结束时间 $t_{e,i}$

最低0.47元/天解锁文章