Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】

Non-Autoregressive Coarse-to-Fine Video Captioning

  • 发表:AAAI 2021
  • idea:(1)针对推理阶段不能并行,推理效率低的问题使用一种双向解码(在bert中不使用sequence mask)。(2)对于视觉词汇训练不充分(由于视觉词汇数量远小于非视觉词汇)导致生成的描述比较宽泛的问题,考虑使用一种coarse-to-fine的解码方式,先生成主要的视觉词汇,然后基于这个“模板”进行填充和细调
1. Architecture

在这里插入图片描述

Encoder

对2D、3D特征做以下处理
在这里插入图片描述

Length Predictor

这里需要预先预测序列的长度L
在这里插入图片描述

Decoder
  • 这里使用了bert,修改了两处:第一不使用sequence mask,这样解码的时候就变成了bi-directional;第二,没看懂,跟随NMT通过整合复制的源信息来增强解码器输入(上图中右侧的虚线)。
  • 同样用了完形填空任务。(这里是mask掉 β l \beta_l βl~ β h \beta_h βh的概率)
2. Visual Word Generation
  • 生成视觉词汇(动词和名词),在上述decoder的基础上。目标就是将序列中所有不是视觉词汇的单词都mask掉
    在这里插入图片描述

  • 优化目标
    在这里插入图片描述
    从左到右依次是长度 L L L损失,完形填空损失以及视觉词汇损失

3. Coarse-to-Fine Captioning

这里真的没看懂。。。
就是迭代优化,感觉很繁琐。。。
后期需要这方面的工作再仔细研读研读。。。

4. Experiments

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值