论文【Learning to Localize Sound Source in Visual Scenes】&soundnet的复现

题目:Learning to Localize Sound Source in Visual Scenes

作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon

发表:CVPR 2018

论文地址:https://arxiv.org/pdf/1803.03849.pdf

这篇文章主要解决的问题:给定视频和声音剪辑对,定位场景中不同声音的声源位置,将声音与对应的视觉对象关联,通过声音和视频帧的联合信息来定位声音在视频帧中的位置。fig1显示了使用声音信号定位声源的示例。

这项工作的主要贡献概述如下:

•引入了一个学习框架,该框架使用注意力机制对声源进行定位,注意力机制由声音信息指导,并具有成对的声音和视频帧。因此,声源定位可以与给定的声音输入交互。

•提出了一种统一的端到端深度卷积神经网络体系结构,可容纳无监督,半监督和全监督学习。

•收集并注释了一个新的声源定位数据集,该数据集提供了受监督的信息并有助于定量和定性分析。

主要方法:

主体模型主要由三个网络组成,即声音和视觉网络以及通过距离比无监督损失训练的注意力网络。

声音网络(Sound CNN):

网络由10层组成,使用一维深度卷积架构。第一部分的卷积层使用了SoundNet的8层的全卷积结构,具体实现上,使用soundnet的object分支的输出,再使用全局平均池化层保证输出的声音特征信息fs维度归一,得到的fs是一个1000-D向量。为了对声音信号的高级信息进行编码,第9和第10层由ReLU+全连接(FC)层组成。 第10FC层的输出为512-D,并表示为h。 我们使用h与视觉网络中的要素进行交互,重新表示视觉概念。我们注意到fs保留了更多的声音概念,而h捕获了与视觉信号相关的相关信息。

视觉网络(Visual CNN):

视觉网络由图像特征提取和定位模块组成。为了从视觉信号中提取特征,我们使用类似于VGG16模型直到conv5_3的体系结构,并以H*W大小的彩色视频帧作为输入。得到512-D的输出特征v,与Sound CNN的输出h保持一致。

我们使激活V与声音嵌入h交互以显示网格中的声源位置信息,这被称为定位模块。

该定位模块返回声源的置信度图和与给定输入声音的源的位置相对应的代表性视觉特征向量z。

一旦获得视觉特征z,它就会经过两个{ReLu-FC}块以计算视觉嵌入fv,这是视觉网络的最终输出。

定位模块(Localization Module):

采用注意力机制的方式计算声音的空间信息和声音特征的相关性,输出定位响应α。注意力可以解释为网格i可能是与声音上下文相关的正确位置的概率。建议使用softmax进行归一化。注意力机制采用的方法是简单粗暴的內积计算方法,为了丢弃负响应部分,作者对注意力机制做了部分改进,如下,

原文代码:

GitHub - ardasnck/learning_to_localize_sound_source: Codebase and Dataset for the paper: Learning to Localize Sound Source in Visual Scenes

文章复现:

GitHub - liyidi/soundnet_localize_sound_source: soundnet and localize sound source

得到的attention map与对应的输入图片,反映输入声音在视频帧中的定位分布。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值