论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

Discriminative Latent Semantic Graph for Video Captioning

概要

  • 发表:ACM MultiMedia 2021
  • 代码:D-LSG
  • idea:为了加强object-level interactions和frame-level information(其实是为了常用的处理后的特征:2D-CNN、3D-CNN、R-CNN),作者主要分为三部分主要工作:Enhanced Object Proposal:使用Graph将时空上的特征融合到 latent object中;Visual Knowledge:聚合上述特征于 latent nodes 中并用来预测 semantic words;Sentence Validation:使用GAN模型对重构的视觉特征进行判别。

详细设计

  • 核心设计:特征融合/聚合方式(在图中)
    在这里插入图片描述
    ps:感觉有点attention的味道
1. Multiple Feature Extraction
  • 常规处理,一般都会用2D-CNN提取appearance(frame-level)特征 V a V^a Va,3D-CNN提取motion特征 V m V^m Vm,R-CNN提取region(object)特征 R R R
2. Enhanced Object Proposal
  • 将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。
    在这里插入图片描述
    根据公式强行解释: v a v^a va与所有region feature都有边相连,所以聚合了所有region feature的特征
    在这里插入图片描述
    这里 Ψ Ψ Ψ Φ Φ Φ都是Linear function之后跟了一个Tanh激活。 v ^ t m \hat v_t^m v^tm的计算类似
3. Visual Knowledge
  • 主要是在Graph引入了一些新的节点(latent nodes),聚合上述信息分别生成K个候选object visual words和K个motion visual words(计算类似)
    在这里插入图片描述
4. Discriminative Language Validation
  • 为了让生成的caption具有更好的语义方面的信息(semantic concepts)。作者通过从生成的captions重构 P o P^o Po P m P^m Pm,然后通过一个判别器进行判别重构的视觉特征 P ^ o , P ^ m \hat P^o,\hat P^m P^oP^m和真实的征 P o , P m P^o, P^m PoPm
  • 具体实现是将生成的caption通过一些1D CNN+残差 的层得到sentence feature S S S,然后让 P o P^o Po“聚合” S S S的特征
    在这里插入图片描述
  • 给生成的视觉特征 P ^ o \hat P^o P^o和真实的视觉特征 P o P^o Po打分,将其视为一个pair,类似于计算他们的相似性
    在这里插入图片描述
    在这里插入图片描述
  • 判别式模型的输出分数(学习给生成特征低分,真实特征高分)
    在这里插入图片描述
  • 判别式模型Loss(后者是正则化项)
    在这里插入图片描述
  • 生成式模型的损失
    在这里插入图片描述

代码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值