AudioSet是Google发行的声音版ImageNet。 AudioSet提供了两种格式: csv文件,包括音频所在的YouTube视频的ID,开始时间,结束时间 以及标签(可能是多标签) 128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的,VGGish下载地址为 TensorFlow models GitHub