【论文随笔3】AudioSet终于有了强(帧级别)标签:THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION

原文链接:【论文随笔3】AudioSet终于有了强(帧级别)标签:THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION - 知乎背景训练神经网络时,最重要的是数据,其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中,标注准确的公开数据屈指可数。DCASE2013、2016、2017等中,声音事件检测(Sound event detection,SED)的数…https://zhuanlan.zhihu.com/p/375586336

背景

训练神经网络时,最重要的是数据,其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中,标注准确的公开数据屈指可数。DCASE2013、2016、2017等中,声音事件检测(Sound event detection,SED)的数据集,基本都是两个小时左右的规模。2017年,Google在ICASSP上发布了大型音频数据集AudioSet,为 general audio-related tasks提供了可用的数据集,但美中不足的是,AudioSet只含有片段级别(10秒左右)的标签,即我们常说的弱标签(Weak label)。

弱标签(Weak label)通常用于音频分类(audio classification)、音频标记(audio tagging)等任务,用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间,那就需要强标签(Strong label)。所以,弱标签是片段级别(clip level)的标签,含有全局信息;强标签是更细致的帧级别(frame level)的标签,含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类,也需要预测对应事件的开始和结束时间的任务,例如声音事件检测(Sound event detection,SED)。

细粒度的音频事件标注是非常耗时费力的,若想精确到帧级别(例如40ms),那么标注1分钟长度的片段,可能需要10分钟不止,要是遇到某些难以确定开始和结束范围的事件,可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件,那同一个片段可能需要听更多次,每次专注于单个音频事件。所以,这也导致了大规模的音频数据标注工作一般由大公司发起,而对应的结果是,他们标注的数据集很少有公开的。

所以,当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时,可说是喜大普奔。文中从拥有1.8M10秒音频片段的AudioSet中,选出了67K个片段、共456类事件,对其进行了帧级别(分辨率0.1秒)的标注,得到了对应的强标签。这对整个研究社区无疑贡献巨大,但这也无形间提升了研究的门槛,以后要是想发事件检测相关的论文,审稿人若问为什么没有在AudioSet上的实验结果,之前还可以说AudioSet中只有弱标签,没有事件级别的强标签,做不了相关实验,但现在AudioSet有了强标签,就不能再用这个理由逃避了。(但没有足够的计算资源,就难以开展相关的研究,难)

本文的主要贡献就是这个大规模的强标签数据集,456类事件共约186个小时,数据集的下载地址为(论文中贴出的链接似乎失效了):

https://research.google.com/audioset/download_strong.html​research.google.com/audioset/download_strong.html

原始论文:

IEEE ICASSP 2021 || Toronto, Ontario, Canada || 6-11 June 2021​www.2021.ieeeicassp.org/Papers/ViewPaper_MS.asp?PaperNum=4045

这里是ICASSP2021的Paper Index,可搜索相关论文,在2021年5月13号到6月14号之间是Open Preview,可从IEEE Xplore上免费下载相关论文。

IEEE ICASSP 2021 || Toronto, Ontario, Canada || 6-11 June 2021​www.2021.ieeeicassp.org/Papers/TechnicalProgram_MS.asp

正文

“THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION”,本文表明,使用弱标签和强标签混合训练(微调),能有效提高分类器的性能。

1. 引言(Introduction)

本文收集了81K个长为10秒音频片段的强标签,其中14K对应了现有的评估集样本,所以还剩下最多67K的样本可用于训练。所以,强标签的音频片段(67K),在整个训练集(1.8M)中所占的比例为大约4%(3.72%)。所以,本文想探究的点在于,提高已有数据集中标签的准确性,可否缓解某些种类数据不足的问题。同时,基于大规模的弱标签数据集,和小规模的强标签数据集,能否训练出比基于各自单独数据集的更好的模型。

2. 强标签数据集(Strong-labeled dataset)

原始的、2017年发布的AudioSet数据集中,包含了2M10秒的音频片段,每个片段大约有2个标签,这些标签对应527类不同的声音事件。具体每一类事件的样本数差别比较大,例如”Speech“1M个样本,而”Toothbrush“只有100个样本。在标注这些片段级别的弱标签时,标注人员对每个片段打上215个不等标签。

弱标注级别的AudioSet有以下几个问题:

  1. 标签是10秒级别的弱标签,时间分辨率低,不精确;
  2. 只有一小部分样本的标注是经过确认的,其余很多事件的标签可信度存疑,或者有的直接没有经过确认;
  3. 有些标签分类存在重叠,标签可能不合适,不能准确描述音频片段的内容。

新的、强标签数据集,致力于解决上述的问题。且强标签的时间分辨率为0.1s。为方便起见,新数据集中将乐器类事件,全部划归为”Music“,这将减少140个标签数。

更多的标注细节请见原始论文,在MLP--CNN--RNN--Transformer--MLP循环推进的今天,感觉只要有足够的精标数据集,加上可用的计算资源,任何结构的模型都能达到SOTA。

3. 实验(Experiments)

实验中,采用了4个数据集,来对比强标签带来的增益:

其中,第4个数据集,混合使用强、若标签时,会有一个参数  来决定是使用哪个标签数据。所使用的模型是ResNet-50,基本就是在做图像任务了。看似音频的外衣,内则是图像处理。

4. 结论(Conclusions)

使用小规模强标签数据集,就可以提到基于大规模弱标签数据训练的音频分类模型的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值