论文阅读【MM21 Pre-training for Video Understanding Challenge:Video Captioning with Pretraining Techniqu】

MM21 Pre-training for Video Understanding Challenge:Video Captioning with Pretraining Technique

概述

  • 发表:ACMM 2021
  • idea:使用X-Linear Attention,借鉴XLAN的思路对Multi-modality Feature进行融合,提出一种multi-path XLAN模型能够对多个单模态特征进行融合,得到一种较好的融合后的特征。此外在视频理解预训练模型比赛中通过数据扩充技术以及集成multi-path XLAN(early fuse)和微调pretrained OPT(late fuse)获得第一

详细设计

1. Single-Modality Pretrained Feature Fusion
  • Multi-Modality Feature Extraction
    几乎考虑到了视频中所有模态的特征,包括:
    (1)appearance feature( 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames2048dims):FixResNeXt-101 network pretrained on the ImageNet-1k dataset
    (2)motion feature( 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames2048dims):irCSN-152 network pretrained on the Kinetics-400 dataset
    (3)region feature( 50 f r a m e s ∗ 2048 d i m s 50 frames * 2048 dims 50frames2048dims):vinvl model pretrained on Visual Genome dataset
    (4)audio feature( 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames2048dims):CNN14 network pretrained on the AudioSet dataset

  • Multi-Modality Feature Fusion
    感觉就是OPT+XLAN,几乎没什么改动
    在这里插入图片描述
    在这里插入图片描述
    F x F_x Fx表示输入特征, E x E_x Ex主要是将各种模态特征嵌入到相同的语义隐藏空间, E n c o d e r x Encoder_x Encoderx是XLAN encoder
    在这里插入图片描述
    这里的 A G G i n AGG_in AGGin A G G c t x AGG_ctx AGGctx表示聚合方式,有以下几种选择方式:average pooling、concatenation、additional attention

2. Multi-Modality Pretrained Model Finetuning

对pretrained Omni-Perception Pre-Trainer model (OPT)进行微调。

  • OPT
    在这里插入图片描述
    分别使用三个encoder对文本、图片、声音进行编码并将特征转换到相同的latent space;然后使用transformer对三种特征进行融合(inter- and intra interactions),然后接入text decoder 和 visual decoder分别生成文本和图片。同时设计了token-level、modality-level和sample-level的任务以让模型具有跨模态理解和生成的能力。作者在这上面使用MSR-VTT数据集进行微调。

实验

  • Ablation Studies
    在这里插入图片描述
    S P SP SP指直接将multi-modality features concate然后进行reduce dimension到1024然后输入encoder-decoder的XLAN/Transformer modal中
  • Comparison to State-of-the-art
    在这里插入图片描述
    + R L +RL +RL表示微调的时候使用了reinforcement learning
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值