背景
训练神经网络时,最重要的是数据,其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中,标注准确的公开数据屈指可数。DCASE2013、2016、2017等中,声音事件检测(Sound event detection,SED)的数据集,基本都是两个小时左右的规模。2017年,Google在ICASSP上发布了大型音频数据集AudioSet,为 general audio-related tasks提供了可用的数据集,但美中不足的是,AudioSet只含有片段级别(10秒左右)的标签,即我们常说的弱标签(Weak label)。
弱标签(Weak label)通常用于音频分类(audio classification)、音频标记(audio tagging)等任务,用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间,那就需要强标签(Strong label)。所以,弱标签是片段级别(clip level)的标签,含有全局信息;强标签是更细致的帧级别(frame level)的标签,含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类,也需要预测对应事件的开始和结束时间的任务,例如声音事件检测(Sound event detection,SED)。
细粒度的音频事件标注是非常耗时费力的,若想精确到帧级别(例如40ms),那么标注1分钟长度的片段,可能需要10分钟不止,要是遇到某些难以确定开始和结束范围的事件,可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件,那同一个片段可能需要听更多次,每次专注于单个音频事件。所以,这也导致了大规模的音频数据标注工作一般由大公司发起,而对应的结果是,他们标注的数据集很少有公开的。
所以,当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时,可说是喜大普奔。文中从拥有1.8M的10秒音频片段的AudioSet中,选出了67K个片段、共456类事件,对其进行了帧级别(分辨率0.1秒)的标注,得到了对应的强标签。这对整个研究社区无疑贡献巨大,但这也无形间提升了研究的门槛,以后要是想发事件检测相关的论文,审稿人若问为什么没有在AudioSet上的实验结果,之前还可以说AudioSet中只有弱标签,没有事件级别的强标签,做不了相关实验,但现在AudioSet有了强标签,就不能再用这个理由逃避了。(但没有足够的计算资源,就难以开展相关的研究,难)
本文的主要贡献就是这个大规模的强标签数据集,456类事件共约186个小时,数据集的下载地址为(论文中贴出的链接似乎失效了):
原始论文:
这里是ICASSP2021的Paper Index,可搜索相关论文,在2021年5月13号到6月14号之间是Open Preview,可从IEEE Xplore上免费下载相关论文。
正文
“THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION”,本文表明,使用弱标签和强标签混合训练(微调),能有效提高分类器的性能。
1. 引言(Introduction)
本文收集了81K个长为10秒音频片段的强标签,其中14K对应了现有的评估集样本,所以还剩下最多67K的样本可用于训练。所以,强标签的音频片段(67K),在整个训练集(1.8M)中所占的比例为大约4%(3.72%)。所以,本文想探究的点在于,提高已有数据集中标签的准确性,可否缓解某些种类数据不足的问题。同时,基于大规模的弱标签数据集,和小规模的强标签数据集,能否训练出比基于各自单独数据集的更好的模型。
2. 强标签数据集(Strong-labeled dataset)
原始的、2017年发布的AudioSet数据集中,包含了2M个10秒的音频片段,每个片段大约有2个标签,这些标签对应527类不同的声音事件。具体每一类事件的样本数差别比较大,例如”Speech“有1M个样本,而”Toothbrush“只有100个样本。在标注这些片段级别的弱标签时,标注人员对每个片段打上2到15个不等标签。
弱标注级别的AudioSet有以下几个问题:
- 标签是10秒级别的弱标签,时间分辨率低,不精确;
- 只有一小部分样本的标注是经过确认的,其余很多事件的标签可信度存疑,或者有的直接没有经过确认;
- 有些标签分类存在重叠,标签可能不合适,不能准确描述音频片段的内容。
新的、强标签数据集,致力于解决上述的问题。且强标签的时间分辨率为0.1s。为方便起见,新数据集中将乐器类事件,全部划归为”Music“,这将减少140个标签数。
更多的标注细节请见原始论文,在MLP--CNN--RNN--Transformer--MLP循环推进的今天,感觉只要有足够的精标数据集,加上可用的计算资源,任何结构的模型都能达到SOTA。
3. 实验(Experiments)
实验中,采用了4个数据集,来对比强标签带来的增益:
其中,第4个数据集,混合使用强、若标签时,会有一个参数 来决定是使用哪个标签数据。所使用的模型是ResNet-50,基本就是在做图像任务了。看似音频的外衣,内则是图像处理。
4. 结论(Conclusions)
使用小规模强标签数据集,就可以提到基于大规模弱标签数据训练的音频分类模型的性能。