一、重要概念
1、AVE(Audio-Visual Event)视听事件
视觉和音频信号通常在自然环境中共存,形成视听事件。通常指在视频片段中既可听到又可看到事件,即,声源出现在图像中(可见),而声源也存在于音频部分(可听见)。如下图所示。
2、AVC(Audio-visual correspondence)视听通信
视听通信的模型通常是用来判断视频和音频的信号是否描述同一个对象,例如:狗汪汪、猫喵喵。这是一个自我监督问题,因为视觉图像通常伴随着相应的声音。现有的方法试图通过测量视听相似性来评估对应关系,如果视听对是对应的,则会得到较大的相似性分数,否则会得到较低的分数。这促使我们通过考虑视听相似性来解决视觉定位问题中丰富的视听对。
3、Sound source localization(声源定位)
旨在定位与提供的音频信号相关的视觉区域,视觉框架的目标区域必须与给定的声音相对应。从这个角度来看,这与AVC任务类似,但声源定位的真正挑战是在一个视觉框架中有多个声源时准确定位发声器。现有的对声源定位的方法都需要构建正视听对样本和负视听对样本。由于在AVE定位中很容易获得相似的正样本和负样本,根据音频和视频片段是否描述同一事件,我们尝试研究这些音频和视频对,并探索其效果。
4、Audio-visual event localization(视听事件定位)
旨在将包括视听活动的片段与长视频区分开来。现有方法主要集中在视听融合的过程。
二、Contribution
给定一个视频,我们的目标是定位包含一个AVE的视频片段并确定其类别。为了学习到辨识度更高的特征,识别有用(或积极)的视听片段对,同时过滤掉不相关的片段对是非常重要的。为此,我们提出了一个新的正样本传播(PSP)模块,通过评估每个可能的音频-视频对之间的关系来发现和利用密切相关的音频-视频对。它可以通过在每个音频和视频片段之间构建一个全对相似度图来实现,并且只聚合具有高相似度的对中的特征。为了鼓励网络为正样本提取高度相关的特征,提出了一种新的视听对相似性损失方法。我们还提出了一种新的加权分支,以更好地利用弱监督环境中的时间相关性。
三、Method
三、追加学习知识点
视频特征提取、卷积神经网络及几种经典卷积神经网络、以
音频为导向的视觉注意力机制、Bi-LSTM