2019年, video captioning论文汇总

最新推荐文章于 2024-06-25 09:43:26 发布

NeverMoreH

最新推荐文章于 2024-06-25 09:43:26 发布

阅读量2.2k

点赞数 5

分类专栏： vision&language # video captioning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/105159599

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

video captioning

2 篇文章 0 订阅

订阅专栏

目录

CVPR2019：GRU
CVPR2019：OA-BTG
CVPR2019：MLE+HybirdDis
CVPR2019：MARN
CVPR2019：SDVC
AAAI2019：FCVC-CF&IA
AAAI2019：TAMoE
AAAI2019：MGSA
AAAI2019：TDConvED
ICCV2019：POSSG-GFN
ICCV2019：SRL-VCT
ICCVW2019：Tale
ICCVW2019：EtENet-IRv2
IJCAI2019：ViCap（new task）
TCSVT2019：DS-RNN
TIP2019：CAM-RNN
TMM2019：STAT

CVPR2019：GRU

题目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下载链接
动机
现有的方法主要关注使用RNN生成captions，visual features都是直接通过CNN提取。作者认为visual features也是很重要的，于是提出使用层级快速傅里叶变换得到视频的时序信息。此外，本文还从object detector中获取高级语义信息。
贡献

本文提出一种visual encoding技术，可以有效的编码video的时空信息，并将相关的高级语义信息嵌入到visual codes中。
本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
本文建立了一个GRU-based language model，达到了最新的state-of-the-art。

方法
本文方法的整体框架如下图所示。

从图中可以看出，本文对video frames同时使用2D-CNN和3D-CNN提取特征，将提取到的特征进行如下图所示的傅里叶变换。整体框架图中，最上侧和最下侧有两条红色的流程线，上侧的代表object的高级语义信息，下侧的代表action的语义信息，分别和Dictionary取交集后，得到特征向量。最后，将2D特征、3D特征、两种语义信息输入到Sequence model中，即可得到模型输出。
实验
在MSVD数据集上的实验结果。GRU表示使用了两层GRU，MP表示使用均值池化处理视频的时间维度，C3D和IRV2代表计算visual code的方法，CI表示将C3D和IRV2一起使用， $\rm EVE_{hft}$ 表示使用傅里叶变换， $\rm EVE_{hft+sem}$ 表示使用傅里叶变换和高级语义信息。

结果展示：

CVPR2019：OA-BTG

题目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下载链接
本文出自Facebook AI
动机
captions的质量往往依赖于video representations，因此，找出视频中的显著物体，并了解它们的运动轨迹，对提升captions的质量有很大帮助。
贡献

使用Bidirectional Temporal Graph（双向时序图）捕获显著物体的时序信息和global context，从而生成更准确的captions。
基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征，并使用分层注意力机制得到不同objects的contributions。

方法
本文方法的整体框架如下图所示，共分为三部分：Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

第一部分，Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧，提取出Object Regions。然后，使用相似性度量处理出object的时序图，正序和反序的都要处理。相似性度量主要从三方面（特征相似性、IoU、面积）考虑，具体计算公式形如公式（1）。

第二部分，Object-aware Aggregation。 这部分使用VLAD模型，对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序，故得到四组特征序列。

第三部分，Decoder。 对于区域序列，使用分层注意力机制（时间（or 时序）注意力+空间注意力）。对于全局帧序列，使用时序注意力。添加attention后，将特征输入到GRU中得到captions。
实验
在MSVD数据集上的实验结果

在MSR-VTT数据集上的实验结果

消融实验

Successful结果展示

Failed结果展示，感觉生成的也挺对的。

CVPR2019：MLE+HybirdDis

题目
Adversarial Inference for Multi-Sentence Video Description
下载链接
动机
现有的video captioning方法中，先将视频分为多个events，再对每个event生成caption。这样得到的captions对于单个event看起来比较好，但是从整个视频来看，多个captions之间存在冗余和不连贯。因此，本文从上述问题出发，提出了Adversarial Inference方法。
贡献

使用对抗学习生成video captions (descriptions)，基于判别器得到的score选择最优sentence。
提出hybrid discriminator（混合判别器），由三种特定的判别器组合而成，取得了比单一判别器更好的结果。
在多个标准上和其他方法进行了对比，在human evaluation中得到了最优的结果。

方法
本文方法的整体框架如下图所示。整体上共分为三部分：Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中，Generator用于编码event的特征（本文假设segment已经给出），提取三种特征，分别是：帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention，再将三种特征拼接，使用fc得到最终特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator（判别器）选择最优sentence。

判别器的结构如下图所示，使用三类信息对sentence进行判别，分别是：Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中，Visual Discriminator用于判断sentence和event的关联程度，这部分和Generator有些类似，提取出video的三种特征，同时提取sentence的BOW特征（词袋特征），将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息，这部分使用双向LSTM对sentence进行编码，在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度，使用双向LSTM对相邻的sentence进行编码，再通过fc层回归出score。
实验
在ActivityNet Captions数据集上的实验结果：

消融实验结果展示：

CVPR2019：MARN

题目
Memory-Attended Recurrent Network for Video Captioning
下载链接
本文出自腾讯和南科大王向荣老师
动机
已有的video captioning方法的框架大多是encoder-decoder，在生成captions时，只能从一个video中读取信息。而本文作者发现，有很多actions和context在不同的训练数据中会反复出现，只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network，通过在传统的encoder-decoder框架中添加attended memory decoder模块，利用多个video来辅助当前处理的video生成caption。
贡献

本文方法可以capture每个单词与多种similar visual contexts的关系。
本文模型可以对每个单词获得更加全面的理解，提高captions的质量。
本文的built memory结构可以显式地对相邻单词的兼容性进行建模，不像大多数现有模型那样要求模型进行隐式学习。
实验结果表明，本文方法已超过state-of-the-art。

方法
本文方法的整体架构如下图所示，共分为三个部分：Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中，Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分，首先对video进行2D和3D特征提取，并添加attention，再进行concatenate，得到最终特征。Decoder部分，使用GRU生成captions。

本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder，提高captions的质量。具体的作用在于：①对于每个单词，可以从多个video scenes中捕获有用信息；②传统方法中，预测下一个单词通常只依赖于当前单词和其context，本文方法可以明确的对相邻单词的兼容性进行建模。

Attender Memory Decoder的核心在于Memory Structure。在本文的memory中，存储的是单词 $w$ 到描述 $d$ 的映射 $< w, d >$ 。而 $d$ 主要包括三方面信息：视觉上下文（visual context） $g_r$ 、词嵌入（word embedding） $w_r$ 和辅助特征（auxiliary features） $u_r$ 。其中， $g_r$ 的生成方式如下图所示，提取所有和单词 $w_r$ 相关的videos的2D和3D特征，添加attention后，选Top-k个，进行标准化，再加和即可。 $e_r$ 使用的是Attention-based Recurrent Decoder训练得到的。 $u_r$ 是辅助特征，本文使用的是video类别信息。

除上文以外，本文还提出了AC Loss，形如公式（13）。主要思想是，在对2D特征添加attention时，相邻两帧的权重应该相差不大，故在损失中添加了抑制项 $|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|$ 。

在训练时，本文先训练传统的Encoder-Decoder部分，再训练Attender Memory Decoder。
实验
在MSR-VTT和MSVD数据集上进行的消融实验

对memory components进行的消融实验

在MAR-VTT数据集上，与其他模型的对比

在MSVD数据集上，与其他模型的对比

实验结果展示

CVPR2019：SDVC

题目
Streamlined Dense Video Captioning
下载链接
动机
这篇文章是做Dense Video Captioning（以下简称DVC），就是在一个长视频中找出所有的events，然后对每一个event生成caption。在这个问题中，现有的方法都是分为两个步骤，首先，提取event proposals，然后，生成captions。这会导致生成的captions存在冗余和不一致，因为没有考虑events之间的时间依赖性。
贡献

提出一个新颖的DVC方法，可以利用events之间的时间依赖性生成captions。
提出使用two-level (episode, event) rewards的强化学习方法，可以提高captions之间的一致性和event description的质量。
可以达到state-of-the-art。

方法
和现有方法对比，Event Detection的区别如下图所示。已有的方法都是提取独立的event，本文将提取的event进行排序，生成序列的captions，加强captions之间的关联性。

本文方法的整体框架如下图所示，主要分为三部分：Event Proposal Network（以下简称EPN）、Event Sequence Generation Network（以下简称ESGN）和Sequential Captioning Network（以下简称SCN）。其中，EPN模块用于提取event，follow了CVPR2017的SST。ESGN模块用于对上一个模块得到的events进行排序，先将候选的proposals按照开始时间排序，然后输入到RNN中，在每一步，生成每个proposal的概率，概率最大的proposal作为当前步的event。SCN模块用于生成captions，使用双层RNN结构，同时考虑visual context和linguistic context。

由于具有三个模块，本文使用的损失也分为三部分，与三个模块分别对应。损失的具体形式如下，这里不一一介绍了。值得注意的是，SCN部分使用强化学习进行训练，公式（14）是reward。
实验
ActivityNet Captions validation set上的实验结果

ActivityNet Captions validation set上的消融实验

实验结果展示

AAAI2019：FCVC-CF&IA

题目
XXX
下载链接
动机
贡献
方法
实验

AAAI2019：TAMoE

题目
XXX
下载链接
动机
贡献
方法
实验

AAAI2019：MGSA

题目
XXX
下载链接
动机
贡献
方法
实验

AAAI2019：TDConvED

题目
XXX
下载链接
动机
贡献
方法
实验

ICCV2019：POSSG-GFN

题目
XXX
下载链接
动机
贡献
方法
实验

ICCV2019：SRL-VCT

题目
XXX
下载链接
动机
贡献
方法
实验

ICCVW2019：Tale

题目
XXX
下载链接
动机
贡献
方法
实验

ICCVW2019：EtENet-IRv2

题目
XXX
下载链接
动机
贡献
方法
实验

IJCAI2019：ViCap（new task）

题目
XXX
下载链接
动机
贡献
方法
实验

TCSVT2019：DS-RNN

题目
XXX
下载链接
动机
贡献
方法
实验

TIP2019：CAM-RNN

题目
XXX
下载链接
动机
贡献
方法
实验

TMM2019：STAT

题目
XXX
下载链接
动机
贡献
方法
实验

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。