Hierarchical Modular Network for Video Captioning【论文阅读】

Hierarchical Modular Network for Video Captioning

  • 发表:CVPR 2022
  • 代码:HMN
  • idea:现有方法在有监督学习的框架下比较生成句子与标注,没有对语义有详尽的探索。基于此,作者考虑从三个层面来连接视频特征和语义:(1实体级别,主要是caption中的objects;(2谓词级别,由caption中的谓词监督;(3句子级别,由整个caption监督

Method

在这里插入图片描述

1. Entity Module

在这里插入图片描述

  • 用途:输入Faster R-CNN得到的L个object feature O O O,经过TransEncoder加强得到 O ′ O' O,紧接着输入TransDecoder得到N个强化的object feature ε \varepsilon ε(目标是在caption中出现的object)。
    在这里插入图片描述 在这里插入图片描述
    Q Q Q是随机初始化的query,v是2D feature( C C C)和3D feature( M M M) concatenate经过BiLSTM得到的hidden states最大池化后的结果。
    在这里插入图片描述 在这里插入图片描述
  • 映射到linguistic semantic space
    在这里插入图片描述
  • entity Loss:caption中的名词与上述预测之间的距离
    在这里插入图片描述 在这里插入图片描述
2. Predicate Module
  • 这里是一个词组,通过对motion feature M M M 进行object注意,得到motion-related object feature M e M^e Me ,再将二者concatenate输入BiLSTM得到action feature A A A;
    在这里插入图片描述
    D
    投影到linguistic semantic space
    在这里插入图片描述
  • Predicate Loss
    在这里插入图片描述
3. Sentence Module

与action类似,只不过在BiLSTM的输入上有两个:context-related action feature C a C^a Ca 和 context-related object feature C e C^e Ce
在这里插入图片描述 在这里插入图片描述

4. Description Generation

输入是上述三种level特征的visual和linguistic feature的concatenation;
在这里插入图片描述
在这里插入图片描述
预测较为常规就是hidden state+linear
在这里插入图片描述

  • 对于语料库的长尾分布问题,这里直接使用了ELM方法基于KL散度,有一个soft损失,最终的objective loss为:
    在这里插入图片描述
    从左至右分别为entity loss,predicate loss,sentence loss,caption loss,soft loss。

Experiments

在这里插入图片描述

  • 小结:所以优雅的模型其实胜于复杂和详细设计的模型,简单实用更能吸引人。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值