论文阅读--Semantic Grouping Network for Video Captioning

Semantic Grouping Network for Video Captioning

abstract

提出了Semantic Grouping Network(SGN)网络:

  • 用部分已经解码的字幕中,选择可可以区分的单词短语对视频帧进行分组,也就是将表达不同意思的帧分组(与聚类相似);
  • 对语义对齐的组进行解码,以预测下一个单词;(根据前面的已经生成的、分好组的词预测下一个)

以前:丢弃或者合并重复视频信息

SGN:检索最有鉴别能力的单词短语,然后将这些词与视频帧关联 。这样可以让语义差不多的帧聚类在一起。

贡献:

  • 新方法:先分组视频帧,再生成描述
  • 新损失:对比注意力损失,可以在不需要人工标注的情况下,实现单词短语和视频帧之间的准确校准。

在这里插入图片描述

Introduction

语义群(组)条件:

  1. 语义组的意思应该是具体的、可观察的,不能是is、the之类的;
  2. 语义是可区分的;
  3. 语义和视频帧之间对应;

贡献:

  1. 提出了一种语义分组网络,并提出了新方法(根据分好组、已经生成的词预测下一个)
  2. 提出对比注意力损失(CA loss)
  3. 在常用数据集超过了当前最好的模型。
Semantic Grouping Network

在这里插入图片描述

结构:Visual Encoder、Phrase Encoder、Semantic Grouping、Decoder、Contrastive Attention (CA) loss

Visual Encoder 视频嵌入

获取视频并为每个视频帧生成帧表示。

Phrase Encoder 处理单词为短语

接受部分已解码的标题,并生成由标题中的一组单词组成的短语(组合单词生成短语)

Semantic Grouping 分组(视频帧+筛选后短语)

过滤出相似的短语,并通过围绕前面处理后的短语与视频帧之间对应,构建语义组(处理前面Phrase Encoder生成的短语)

Decoder 根据分组预测下一个词

解码器利用语义组来预测部分解码的标题的下一个单词

数据集
  • MSR-VTT

  • MSVD

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值