全文共2538字,预计学习时长8分钟
图源:unsplash
本文是对于论文《在视觉场景中定位声源方法》的总结,研究视觉场景和识别声源之间的对应关系是计算机视觉基础领域的新问题。这篇文章提出了视觉线索与声源定位的一种新方法。
视觉场景由丰富的声音信息组成,这些信息包含各种中间线索,有助于定义特定场景中的声音来源。如图所示,发动机和人所在的空间会产生相应声音,这些区域的输出结果所对应的热图具有更高活性。
定位过程概述
该模型的主要目标是实现相应声音信号和视频的同步操作,因此,考虑到由视频和音频剪辑组成数据的海量性,可以设计一个无监督模型。
网络架构
该模型的体系结构由two-stream网络组成,其中每个网络有助于涉及声音和视觉数据的模态。根据先前的情况所设计的模型完全是基于对视频的无监督观察,即通过注意力机制学习声源定位。
但是这种方法所获结果说服力不高,因为无监督学习方法很难仅基于相关性进行声源区分。为了解决这一问题,有人指出,先验知识和巧妙监督有助于显著改善结果。
文章讨论的一些要点如下:
1.借助听觉信息的注意力机制引入学习框架。
2.提出了一种统一的端到端深卷积神经网络结构,该结构能够适应无监督、半监督和完监督的学习。
3.创建一个基于声源定位的新数据集,提供监督信息,便于定量和定性分析。
事不宜迟,让我们看一下由不同网络组成的算法,以及它如何解决跨模态信号的定位问题。
验证算法
设计的神经网络主要包括三个模块:声音网络、视觉网络和注意模型。
声音网络
网络需要10层并以原始波形作为输入以开发高端信号。第一个conv层(至第8层)与SoundNet类似,随后是1000个过滤器,接着是通过滑动窗口跨时间轴的平均池化。平均池化之后获得的输出记为“fs”,这保留了合理的声音概念。
为了包含更高级别的声音信号,第9层和第10层由ReLU和全连接层组成。第10 层FC的输出是512-D,记为“h”。这个“h”用于与来自视觉网络的特征交互,主要捕获与视觉信号相关的信息。
视觉网络
视觉网络由图像特征提取器和定位模块组成。由于第一部分参考了SoundNet,该网络很大程度上是受到VGG-16模型的启发来提取特征。输入大小为H x W的彩色视频帧之后,获得由512-D激活向量组成的临时输出。