论文阅读【XlanV Model with Adaptively Multi-Modality Feature Fusing for Video Captioning】

XlanV Model with Adaptively Multi-Modality Feature Fusing for Video Captioning

  • 发表:ACMM 2020
  • idea:鉴于X-Linear Attention Network在image caption中的成功,在X-Linear Attention Network扩展了自适应模态融合模块。具体做法是使用CNN提取视频的静态特征,I3D提取视频的动态特征,然后分别输入到多层X-Linear Attention中,最后再解码的时候对两种特征进行自适应融合。
    在这里插入图片描述

网络框架

  • encoder
    输入:CNN提取的static feature和I3D提取的dynamic feature
    经过:多层堆叠的X-Linear Attention+Add&Norm
    输出:最后一层的输出以及每层的输出
    在这里插入图片描述
    ps:这里输入X-Linear Attention的三条线分别是K,V,Q

  • Decoder
    在这里插入图片描述
    (1)LSTM
    在这里插入图片描述
    其中 v ~ r {\widetilde v}_r v r表示encoder中所有层的 V r ( m ) {V_r}^{(m)} Vr(m)的平均池化; v ~ i {\widetilde v}_i v i类似; E y t − 1 E_{y_{t-1}} Eyt1表示上一时刻产生的输出的embedding
    (2)自适应多模态融合模块
    在这里插入图片描述
    ps:融合机制受到文献【Entangled Transformer for Image Captioning】的启发,可以自适应地权衡两种特征,当一个特征并不是十分有用的时候,可以充分地利用另一个特征。
    (3)attention on attention
    在这里插入图片描述
    ps:受到文献【Attention on attention for image captioning】的启发,通过glu实现attention on attention
    (4)输出
    在这里插入图片描述

实验分析

  • 实验1:不同模型在不同的特征提取网络中的表现
    在这里插入图片描述

  • 实验2:静态特征与动态特征的消融实验以及与baseline的对比实验
    在这里插入图片描述

  • 小结
    感觉这篇文章就是将各种image caption的方法拼凑过来

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值