CVPR2018 Sight and Sound 短文总结

今年CVPR中关于视频和音频workshop: Sight and Sound

随着互联网的发展,近年来涌现了大量的视频和相应的音频资源,但是传统的方法往往单独地分析视频或者音频,如何同时对两种模态的信息进行学习和分析成为了很多研究者关注的问题。
由于每一个视频几乎都伴随有相应的音频信息,这就为联合音视频进行自监督学习提供了条件。CVPR2018中关于“Sight and Sound”的workshop对相关方面的工作进行了报道。本文对该workshop中的短文以及相关的一些其它工作进行了汇总。

一、视频(图像)与音频之间的相互生成

1. A Multimodal Approach to Mapping Soundscapes (University of Kentucky)

  • 任务:构造环境声音地图

  • 概要:利用提出的数据集,对声音、地面图像以及俯视图像特征进行了融合,实现了利用俯视图生成声音地图的功能。

  • 研究动机:环境的噪声会对包括人的社会行为在内的很多事情造成影响,获取特定地理位置\场景与声音之间的关系可以帮助人们做很多事情,例如决定在哪里生活、在哪里设置声音屏障等。

  • 数据集:文中构建了一个称为Cross-View Sound (CVS) Dataset的数据集。作者从FreeSound
    (https://freesound.org) 收集了23,308个带有地理标签的声音文档,对于每一个声音文档都有从Bing
    Maps下载的匹配俯视场景图。实验中,在剔除时长小于2s及没有匹配俯视场景图的声音文档后,剩余共计15,773组声音文档及对应的俯视图。(可向作者索要)

  • 学习共享特征空间:为了学习一个可以同时描述声音和俯视图像的特征,文中提出了一个关联声音和俯视图的CNN结构,如下图所示。

  1. SoundNet提取声音特征:为了训练SoundNet, 将无标签视频中的图像作为Placesnetwork的输入获取分布特征,并将分布特征作为声音文件的标签信息。对于一个给定的身影件,SoundNet的输出是一个包含401类场景的类别分布。
  2. Overhead image feature representation.每一张ground-level image通过Places Network进行标记,以生成401个场景类别的分布。之后利用overhead图像对VGG16进行训练以预测类别分布,并使得两者的KL-divergence最小。采用的数据集是CVUSA,该数据集包含1.5M geo-tagged pairs of overhead and ground-level images.

通过上述训练的过程,可以获取多模态共享的特征模式,使得不同模态的特征可以直接比较。

声音的聚类:在特征空间中,与overhead image相近的声音会比较相似,因此在同一地点区分声音的多样性将变得比较困难。为了解决该问题,作者对声音进行了聚类。对每一个包含图像-声音的匹配对,对两种模态各自提取包含401类场景信息的向量,然后将两种模态的向量进行拼接,以形成一个802维的向量。随后,利用拼接后的向量作为输入进行聚类,在剔除小的聚类类别后,最终剩下10个聚类类别。最后利用聚类得到的类别信息,对上述网络进行进一步微调。

  • 结果展示:如下图所示,根据overhead image可以获取声音的聚类概率分布信息。

针对不同规模场景下构建声音地图:

2. Image generation associated with music data

  • 任务:为音乐生成相应配图
  • 概要:利用CNNs和RNNs对图像和音乐数据的特征进行提取,并学习两种模态特征之间的关系,之后利用GANs实现由音乐数据生成相应图像的过程
  • 音乐特征的提取:如下公式所示,利用短时傅里叶变换(STFT, Short Time Fourier Transform)将原始的音乐文件转为幂向量和相向量,其中 τ , ω \tau ,\omega τ,ω分别表示需要提取的相向量和幂向量。

在实际操作过程中,对输入的时长为1min左右的音频随机提取16s的片段,利用上式生成两个1024D的向量。接下来,利用CNNs对上述两个向量分别进行特征提取,并利用全连接层对两个特征进行拼接,并最获取得到一个1024位的特征向量。由于上述特征具有时间属性,因此将生成的特征输入LSTM生成时间序列特征。

  • 图像特征的提取:利用AlexNet对图像特征进行提取,获取1024维的图像特征向量。
  • 整体框架:如下图2所示,对图像和音乐两种模态特征之间的关联性进行学习,之后可利用之前训练的CNN-LSTM模型将输入的图像生成音乐特征。将这些音乐特征融合后利用DCGAN生成相应的图像。
  • 数据集:通过志愿者选取了不同主题下的图像。本文中共收集了包含 “sky” “water” “mountain” “desert” 四类场景图像,每类场景包含2000张照片。而音乐文件则通过搜索这四类关键词从网上获取的数据,每类下包含30个音乐文件。
  • 结果展示:根据不同主题下生成的图像如下图所示:

3.Inverting audio-visual simulation for shape and material perception

  • 任务:根据物体的形状、材料、初始状态(下落高度)预测物体的下落过程中的碰撞和运动过程,并生产相应的声音和伴随视频。
  • 概况:为了避免搜集大量标注声音信息的难题,文中利用声音视频的融合数据开展了目标感知任务。

文中提出的数据融合框架包含三个部分:physics engine, graphics engine 和audio engine:
Physics engine: 以目标的形状、材料特性、初始的条件作为输入,然后计算他们后续的运动和碰撞。

Graphics engine: renders videos based on the simulated objected motion.

Audio engine: 建立在以前的工作基础上[Precomputed acoustic transfer: output-sensitive, accurate sound generation for geometrically complex vibration sources, 2006],利用physics engine的输出进行融合。

利用上述模型文中构建了一个包含声音-视频信息的数据集Sound-20K, 实验表明视觉和听觉信息在目标感知任务中起到很重要的促进作用。

  • 实验结果:

4. Visual to sound: generating natural sound for video in wild

  • 任务:根据给定的视频生成相应的音频。

二、定位发声源、音视频匹配、声音分离等问题

5. Learning to separate object sounds by watching unlabeled video

  • 任务:基于视频信息,对视频中的混合音频进行分离。
  • 框架:如图2所示,提取给定音频中的视频帧和音频轨。对音频采用非负矩阵分解(NMF)获取声音的谱模式。对于视频帧,采用在ImageNet上训练的ResNet-152作为目标分类的工具,将输出结果中得分较高的类别作为无标签视频的预测标签。之后,将声音向量和视频预测的结果输入MIML(multi-instance multi-label learning)框架学习目标和音频之间的关联性。

6. On learning association of sound source and visual scenes.

  • 任务:探索一种非监督的方式学习声音与视觉目标之间的关联关系,定位发声源。
  • 数据集:作者构造了一个包含声音源位置信息的声音-视频对数据集,论文中未公开。

文中利用单声道的音频信息对视频中的发声源进行定位,作者发现完全的非监督方法无法较好的解决该问题,适当的增加先验知识以指导物体和声音之间的关联是未来解决该任务的一个重要方法。

对于动物的听觉感知能力而言,其可以根据声音到达时间的差异(TDoA, time different of arrival)在3D空间中实现对声音的定位,因此如何利用TDoA信息将会是该任务未来的一个重要方向。

7. Semantic speech retrieval with a visually grounded model of untranscribed speech

  • 任务:根据查询文本,检索出与文献语义相关的语音片段。

8. Weakly supervised representation learning for unsynchronized audio-visual events

  • 任务:利用视频和音频两种模态,实现对视频中事件的分类和定位。

本短文相应的全文见[https://arxiv.org/abs/1804.07345]
视觉和听觉是我们人类认知世界的两种非常重要的感知能力。不管是电话铃响还是有汽车从旁边经过,我们都可以通过视觉和听觉立刻意识到相关的事件。正是在这两种能力的帮助下,我们才能理解周围的环境并且与周围的环境产生互动。对于智能机器而言,具备这两种能力同样对他们理解真实世界的数据具有重要的意义。

9. 2017_ICCV_Look, Listen and Learn

  • 任务:判断音视频是否匹配

论文针对视频是音频是否匹配的问题构建了如下图所示的网络结构,并利用大量的无标记的视频和相应音频信息进行了训练。训练所得到的网络不仅在判断音视频一致性上表现出色,所得到的两个子网络也分别在视频分类和声音分类中取得了很好的效果。

10. 2018_ECCV_Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

  • 任务:音视频对齐、定位发声源和分离声音(画面中的声音和画外音)

11. 2018_arXiv_Objtects that sound

  • 任务:跨模态检索和声音定位
  • 采用的数据集:公开数据集AudioSet dataset [Audio Set: An ontology and humanlabeled dataset for audio events, ICASSP2017]. 作者对其进行了进一步的筛选,除用于定量评估的数据外,其它数据均无特殊标注信息。
  • 训练设备:16GPUs, 128-element batch*16=2048 (batch size)

在声音定位任务中采用的网络结构如下所示,图像卷积得到Conv6特征的每一个空间描述子均与与声音的fc2特征向量进行相似性的比较,得到一个14*14大小相似性map。

  • 实验结果:作者分别在图像和视频上验证了声音定位的效果。不过,即便是在视频中,论文中采用的方法也是逐帧评估的方式,因此并未将视频中所包含的运动信息包含在内。

12. 2018_arXiv_The sound of pixels

  • 概要:文中提出了一个PixelPlayer系统,利用大量无标记的视频数据,实现了对画面中声音源的定位和对不同像素对应声音的分离
  • 项目地址:http://sound-of-pixels.csail.mit.edu/

“We expect our work can open up new research avenues for understanding the problem of sound source separa-tion using both visual and auditory signals.”

如上图2所示,模型结构分为三个部分:
1. 视频分析网络—采用的是ResNet18模型,对于一个输入大小为T×H×W×3的视频片段,ResNet对每一帧提取特征后得到大小为T×(H/16)×(W/16)×K的特征。随后对该特征进行temporal pooling 和sigmoid activation可以在每一个像素点上获得大小为K的视觉特征ik(x,y)
2. 音频分析网络—采用了U-Net的网络结构,将输入的音频分割为K个组。作者发现使用音频频谱要比直接使用原始的波形数据要好的多,因此对输入的声音信息进行STFT(Short Time Fourier Transform)变换得到相应的频谱数据,并对频谱的幅度转换到对数频率尺度[Time-Frequency, T-F],随后在输入到U-N中生成K个feature maps.
3. 声音融合网络—通过输入像素级别的视觉特征和音频特征实现对声音的判断。该网络输出一个基于视觉的频谱掩码,利用该掩码与输入的频谱相乘即可实现声音的分离。最后,为了恢复声音的波形数据,将预测得到的频谱幅度和输入频谱的相相结合,并利用反STFT实现声音的恢复

三、其它问题

13. Fast forwarding egocentric videos by listening and watching

  • 任务:对视频中冗杂的部分进行加速。
  • 概要:通过视频的音轨信息,利用心理声学的评判指标对视频片段的令人厌烦情况进行评判,并据此实现对视频中无关紧要的片段进行加速处理
  • 心理声学厌烦评估:利用声音的sharpness (S), loudness (N), fluctuation (F), and roughness ® 建立了声音厌烦程度的评估函数:

PA值越小表示对应视频的语义信息越重要。

  • 视频片段剔除:本部分利用了MIFF (Multi-Importance Fast-Forward) 方法。该方法是一种有向图的形式,图的结点表示视频帧,而图的边表示视频帧之间的转换。利用该方法计算出每一个图的最短路径,并将这些路径连接起来。最后,通过拼接路径形成一个视觉上更为愉悦的快进视频。
  • 数据集:采用[CVPR2018_A weighted sparse sampling and smoothing frame transition approach for semantic fast-forward first-person videos] 中所给的数据集DoMSEV, 该数据集提供了长达80小时的第一视角视频文件,同时还提供了声音信息、IMU measurement, GPS 和depth。数据集中的每一段视频都配有视频的拍摄环境、活动及录像设备的交互信息等注释。
  • 实验结果:如下图所示第一行是视频帧,第二行对应音频的PA值,第一帧图像由于处于闹市,因此PA值比较大、视频被加速(紫色虚线),第二帧图像PA值小、视频速度较缓,第三帧图像中环境再次变得嘈杂,视频被加速。

14. Multimodal attention for fusion of audio and spatiotemporal features for video description

  • 任务:通过融合声音和视频中的图像、动作等多模态特征,实现对视频的描述。
  • 概要:图1和图2分别展示了此前多模态融合的方式,和本文提出的attentional multimodal fusion. 先比与原有方法,本文,为每种模态增加了权重 β \beta β.
  • 实验结果[ICCV2017_ Attention-based multimodal fusion for video description]:

15. The excitement of sports: automatic highlights using audio/visual cues

  • 任务:自动创建体育赛事视频锦集。
  • 概要:提出了一个自动创建体育竞赛视频锦集的方法,并利用一段真实的高尔夫比赛视频进行了展示。文中提出的方法融合了包括运动员动作(击掌、竖大拇指等)、表情(沮丧、紧张、微笑、自然等)、观众站台(是否欢呼)、解说员及赛事分析等信息判断比赛过程中的精彩瞬间。

16. Visual rhythm and beat

  • 通过调整视频,使其节奏与音乐的节奏相匹配,可以创造或者操控视频中的舞蹈。本短文是论文[Visual rhythm and beat. ACM Trans. Graph. 2018]的一个预览
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值