【论文随笔3】AudioSet终于有了强（帧级别）标签：THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION

最新推荐文章于 2024-06-22 09:53:29 发布

moses1994

最新推荐文章于 2024-06-22 09:53:29 发布

阅读量910

点赞数 1

分类专栏：论文文章标签：神经网络深度学习 seqence2seqence deep learning 音频数据集

本文链接：https://blog.csdn.net/moses1994/article/details/121369574

版权

论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

原文链接：【论文随笔3】AudioSet终于有了强（帧级别）标签：THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION - 知乎背景训练神经网络时，最重要的是数据，其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中，标注准确的公开数据屈指可数。DCASE2013、2016、2017等中，声音事件检测（Sound event detection，SED）的数…https://zhuanlan.zhihu.com/p/375586336

背景

训练神经网络时，最重要的是数据，其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中，标注准确的公开数据屈指可数。DCASE2013、2016、2017等中，声音事件检测（Sound event detection，SED）的数据集，基本都是两个小时左右的规模。2017年，Google在ICASSP上发布了大型音频数据集AudioSet，为 general audio-related tasks提供了可用的数据集，但美中不足的是，AudioSet只含有片段级别（10秒左右）的标签，即我们常说的弱标签（Weak label）。

弱标签（Weak label）通常用于音频分类（audio classification）、音频标记（audio tagging）等任务，用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间，那就需要强标签（Strong label）。所以，弱标签是片段级别（clip level）的标签，含有全局信息；强标签是更细致的帧级别（frame level）的标签，含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类，也需要预测对应事件的开始和结束时间的任务，例如声音事件检测（Sound event detection，SED）。

细粒度的音频事件标注是非常耗时费力的，若想精确到帧级别（例如40ms），那么标注1分钟长度的片段，可能需要10分钟不止，要是遇到某些难以确定开始和结束范围的事件，可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件，那同一个片段可能需要听更多次，每次专注于单个音频事件。所以，这也导致了大规模的音频数据标注工作一般由大公司发起，而对应的结果是，他们标注的数据集很少有公开的。

所以，当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时，可说是喜大普奔。文中从拥有1.8M的10秒音频片段的AudioSet中，选出了67K个片段、共456类事件，对其进行了帧级别（分辨率0.1秒）的标注，得到了对应的强标签。这对整个研究社区无疑贡献巨大，但这也无形间提升了研究的门槛，以后要是想发事件检测相关的论文，审稿人若问为什么没有在AudioSet上的实验结果，之前还可以说AudioSet中只有弱标签，没有事件级别的强标签，做不了相关实验，但现在AudioSet有了强标签，就不能再用这个理由逃避了。（但没有足够的计算资源，就难以开展相关的研究，难）

本文的主要贡献就是这个大规模的强标签数据集，456类事件共约186个小时，数据集的下载地址为（论文中贴出的链接似乎失效了）：

https://research.google.com/audioset/download_strong.htmlresearch.google.com/audioset/download_strong.html

原始论文：

IEEE ICASSP 2021 || Toronto, Ontario, Canada || 6-11 June 2021www.2021.ieeeicassp.org/Papers/ViewPaper_MS.asp?PaperNum=4045

这里是ICASSP2021的Paper Index，可搜索相关论文，在2021年5月13号到6月14号之间是Open Preview，可从IEEE Xplore上免费下载相关论文。

IEEE ICASSP 2021 || Toronto, Ontario, Canada || 6-11 June 2021www.2021.ieeeicassp.org/Papers/TechnicalProgram_MS.asp

正文

“THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION”，本文表明，使用弱标签和强标签混合训练（微调），能有效提高分类器的性能。

1. 引言（Introduction）

本文收集了81K个长为10秒音频片段的强标签，其中14K对应了现有的评估集样本，所以还剩下最多67K的样本可用于训练。所以，强标签的音频片段（67K），在整个训练集（1.8M）中所占的比例为大约4%（3.72%）。所以，本文想探究的点在于，提高已有数据集中标签的准确性，可否缓解某些种类数据不足的问题。同时，基于大规模的弱标签数据集，和小规模的强标签数据集，能否训练出比基于各自单独数据集的更好的模型。

2. 强标签数据集（Strong-labeled dataset）

原始的、2017年发布的AudioSet数据集中，包含了2M个10秒的音频片段，每个片段大约有2个标签，这些标签对应527类不同的声音事件。具体每一类事件的样本数差别比较大，例如”Speech“有1M个样本，而”Toothbrush“只有100个样本。在标注这些片段级别的弱标签时，标注人员对每个片段打上2到15个不等标签。

弱标注级别的AudioSet有以下几个问题：