音频分类-数据集:AudioSet【Google发行的声音版ImageNet】

谷歌发布AudioSet强标签:音频事件检测的里程碑
谷歌的AudioSet数据集是大规模音频事件检测的重要资源,原本仅包含片段级别的弱标签。现在,AudioSet部分片段已获得帧级别的强标签,这对音频事件定位的研究带来了重大突破,但也提升了研究门槛。这一发展为音频识别任务提供了更精细的标注数据,但也意味着未来的研究者需要处理更高标准的实验要求。

GitHub:https://github.com/audioset/ontology

谷歌发布的大规模音频数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。

音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

在这里插入图片描述
AndioSet能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中,得到的数据集在音频事件类上有极好的覆盖。
在这里插入图片描述

训练神经网络时,最重要的是数据,其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中,标注准确的公开数据屈指可数。DCASE2013、2016、2017等中,声音事件检测(Sound event detection,SED)的数据集,基本都是两个小时左右的规模。2017年,Google在ICASSP上发布了大型音频数据集AudioSet,为 general audio-related tasks提供了可用的数据集,但美中不足的是,AudioSet只含有片段级别(10秒左右)的标签,即我们常说的弱标签(Weak label)。

弱标签(Weak label)通常用于音频分类(audio classification)、音频标记(audio tagging)等任务,用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间,那就需要强标签(Strong label)。所以,弱标签是片段级别(clip level)的标签,含有全局信息;强标签是更细致的帧级别(frame level)的标签,含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类,也需要预测对应事件的开始和结束时间的任务,例如声音事件检测(Sound event detection,SED)。

细粒度的音频事件标注是非常耗时费力的,若想精确到帧级别(例如40ms),那么标注1分钟长度的片段,可能需要10分钟不止,要是遇到某些难以确定开始和结束范围的事件,可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件,那同一个片段可能需要听更多次,每次专注于单个音频事件。所以,这也导致了大规模的音频数据标注工作一般由大公司发起,而对应的结果是,他们标注的数据集很少有公开的。

所以,当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时,可说是喜大普奔。文中从拥有1.8M的10秒音频片段的AudioSet中,选出了67K个片段、共456类事件,对其进行了帧级别(分辨率0.1秒)的标注,得到了对应的强标签。这对整个研究社区无疑贡献巨大,但这也无形间提升了研究的门槛,以后要是想发事件检测相关的论文,审稿人若问为什么没有在AudioSet上的实验结果,之前还可以说AudioSet中只有弱标签,没有事件级别的强标签,做不了相关实验,但现在AudioSet有了强标签,就不能再用这个理由逃避了。(但没有足够的计算资源,就难以开展相关的研究,难)




参考资料:
关于Audioset的音频分类研究
AudioSet指标解释
AudioSet数据集介绍(含国内镜像地址)
音频标签化1:audioset与训练模型 | 音频特征样本
公开数据集记录:语音、音乐和其他音频数据集
【论文随笔3】AudioSet终于有了强(帧级别)标签:THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION
音频模式识别中的涨点方法与影响因素分析

### Audioset 数据集概述及其在音频处理中的应用 Audioset 是一个大规模的音频事件数据集,旨在支持机器学习模型的研究和发展,特别是在多标签分类声音场景理解领域。以下是关于 Audioset 的详细介绍: #### 1. 数据集结构与特点 Audioset 包含超过 200 万个由人类标注的音频片段,这些片段来源于 YouTube 上公开可用的视频资源[^3]。它涵盖了大约 527 种不同的音频类别,包括但不限于动物叫声、音乐流派、乐器演奏以及各种环境声效。这种多样化的覆盖范围使得 Audioset 成为了研究复杂音频信号的理想平台。 #### 2. 音频处理的应用案例 通过利用循环神经网络(RNN),可以有效地捕捉到时间序列上的长期依赖关系,在分析连续性的音频文件时表现出色[^2]。例如,当尝试识别一段持续数秒甚至更长时间内的特定语音命令或者背景噪音变化趋势时,基于 RNN 架构的方法能够提供更加精准的结果预测能力。 此外,对于图像对象轮廓分割掩码技术的发展也有助于提升视觉-听觉联合建模的效果[^1]。这意味着如果我们将来自 Audioset 中的声音信息映射至对应的像素级表示形式,则可能进一步增强跨感官模式下的特征提取效率。 ```python import tensorflow as tf from tensorflow.keras.layers import LSTM, Dense def build_rnn_model(input_shape): model = tf.keras.Sequential([ LSTM(128, return_sequences=True, input_shape=input_shape), LSTM(128), Dense(527, activation='sigmoid') # Assuming we have 527 classes from AudioSet ]) model.compile(optimizer='adam', loss='binary_crossentropy') return model model = build_rnn_model((None, 128)) # Example shape with MFCC features ``` 上述代码展示了一个简单的双层LSTM架构用于处理AudioSet类型的多标签分类任务。 #### 3. 技术挑战与发展前景 尽管 Audioset 提供了大量的训练样本,但在实际部署过程中仍面临诸多难题,比如如何平衡各类别的分布差异以减少偏差影响;怎样设计高效的迁移学习策略来适应新领域的应用场景等问题亟待解决。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值