作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合,证明了音频在视觉任务中的重要性
提取audio,video,captions的特征,将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制,紧接一个全连接层来产生时间segments
Caption generator将这三个特征和得到的时间片段作为输入, 它基于时间段对音频和视频特征进行soft mask clipping剪切,并使用上下文融合技术生成多模态上下文特征。然后通过decoder生成caption
Weakly Supervised Model
没有视频和字幕间的时间对齐ground truth
作者做出了一对一的对应假设:每一个字幕描述一个时间segment,每一个时间segment只对应一个caption
该模型包括两个网络模块:一个句子定位器和一个字幕生成器
给定一个字幕,句子定位器将会产生一个时间片段,对应于给定的时间片段,字幕生成器将会产生一个字幕
Sentence Localizer
给定一个context O(视频或者音频)和编码后的caption C,句子定位器将在O中回归得到一个时间片段S
首先应用一个cross attention在context和caption中,进行attention feature 融合,然后使用一个全连接神经网络来生成时间片段
如果是多模态训练的话,Attc只计算视觉模态和caption的,并且生成视频attention Attv和音频Attention Atta
如果是单模态方法的话,caption attention Attc计算视频或音频和字幕之间的
Caption Generator
字幕生成器首先在contexts上应用mask clipping来得到segments,然后使用一个context fusion mechanism来融合裁剪的上下文
Context Fusion
融合视频和音频特征
Training Loss