最近在看音频信号处理的相关工作,看到VGGish方法,网上的资料不是很多,做个总结。参考了以下文章
https://zhuanlan.zhihu.com/p/111996722
https://www.zhihu.com/question/56816282/answer/150639596
1 VGGish项目简介
AudioSet 由Google的声音理解团队于2017年3月发布,旨在为音频事件检测提供常见的大规模评估任务,并为全面的声音事件词汇提供起点。 AudioSet是一个由200万个人标记的10秒YouTube视频音轨组成的数据集,其标签来自600多个音频事件类的本体。
Vggish模型是在YouTube的AudioSet数据预训练得到模型。 Vggish项目地址:
https://github.com/tensorflow/models/tree/master/research/audioset/vggish
Google发刚刚布的AudioSet数据库在音频处理领域具有重大意义,可以说,AudioSet数据库是音频领域的ImageNet。可以预见,未来几年音频领域将有大量研究和突破。
与音频处理十分相似的是语音识别,IBM和微软