《Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning》---CVPR2020 论文阅读

作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合,证明了音频在视觉任务中的重要性

提取audio,video,captions的特征,将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制,紧接一个全连接层来产生时间segments

Caption generator将这三个特征和得到的时间片段作为输入, 它基于时间段对音频和视频特征进行soft mask clipping剪切,并使用上下文融合技术生成多模态上下文特征。然后通过decoder生成caption

Weakly Supervised Model

没有视频和字幕间的时间对齐ground truth

作者做出了一对一的对应假设:每一个字幕描述一个时间segment,每一个时间segment只对应一个caption

该模型包括两个网络模块:一个句子定位器和一个字幕生成器

给定一个字幕,句子定位器将会产生一个时间片段,对应于给定的时间片段,字幕生成器将会产生一个字幕

Sentence Localizer

给定一个context O(视频或者音频)和编码后的caption C,句子定位器将在O中回归得到一个时间片段S

首先应用一个cross attention在context和caption中,进行attention feature 融合,然后使用一个全连接神经网络来生成时间片段

 

如果是多模态训练的话,Attc只计算视觉模态和caption的,并且生成视频attention Attv和音频Attention Atta

如果是单模态方法的话,caption attention Attc计算视频或音频和字幕之间的

 

Caption Generator

字幕生成器首先在contexts上应用mask clipping来得到segments,然后使用一个context fusion mechanism来融合裁剪的上下文

Context Fusion

融合视频和音频特征

 

Training Loss

 


 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值