目录
CVPR2019:GRU
- 题目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下载链接 - 动机
现有的方法主要关注使用RNN生成captions,visual features都是直接通过CNN提取。作者认为visual features也是很重要的,于是提出使用层级快速傅里叶变换得到视频的时序信息。此外,本文还从object detector中获取高级语义信息。 - 贡献
- 本文提出一种visual encoding技术,可以有效的编码video的时空信息,并将相关的高级语义信息嵌入到visual codes中。
- 本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
- 本文建立了一个GRU-based language model,达到了最新的state-of-the-art。
- 方法
本文方法的整体框架如下图所示。
从图中可以看出,本文对video frames同时使用2D-CNN和3D-CNN提取特征,将提取到的特征进行如下图所示的傅里叶变换。整体框架图中,最上侧和最下侧有两条红色的流程线,上侧的代表object的高级语义信息,下侧的代表action的语义信息,分别和Dictionary取交集后,得到特征向量。最后,将2D特征、3D特征、两种语义信息输入到Sequence model中,即可得到模型输出。
- 实验
在MSVD数据集上的实验结果。GRU表示使用了两层GRU,MP表示使用均值池化处理视频的时间维度,C3D和IRV2代表计算visual code的方法,CI表示将C3D和IRV2一起使用, E V E h f t \rm EVE_{hft} EVEhft表示使用傅里叶变换, E V E h f t + s e m \rm EVE_{hft+sem} EVEhft+sem表示使用傅里叶变换和高级语义信息。
结果展示:
CVPR2019:OA-BTG
- 题目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下载链接
本文出自Facebook AI - 动机
captions的质量往往依赖于video representations,因此,找出视频中的显著物体,并了解它们的运动轨迹,对提升captions的质量有很大帮助。 - 贡献
- 使用Bidirectional Temporal Graph(双向时序图)捕获显著物体的时序信息和global context,从而生成更准确的captions。
- 基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征,并使用分层注意力机制得到不同objects的contributions。
- 方法
本文方法的整体框架如下图所示,共分为三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。
第一部分,Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧,提取出Object Regions。然后,使用相似性度量处理出object的时序图,正序和反序的都要处理。相似性度量主要从三方面(特征相似性、IoU、面积)考虑,具体计算公式形如公式(1)。
第二部分,Object-aware Aggregation。 这部分使用VLAD模型,对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序,故得到四组特征序列。
第三部分,Decoder。 对于区域序列,使用分层注意力机制(时间(or 时序)注意力+空间注意力)。对于全局帧序列,使用时序注意力。添加attention后,将特征输入到GRU中得到captions。 - 实验
在MSVD数据集上的实验结果
在MSR-VTT数据集上的实验结果
消融实验
Successful结果展示
Failed结果展示,感觉生成的也挺对的。
CVPR2019:MLE+HybirdDis
- 题目
Adversarial Inference for Multi-Sentence Video Description
下载链接 - 动机
现有的video captioning方法中,先将视频分为多个events,再对每个event生成caption。这样得到的captions对于单个event看起来比较好,但是从整个视频来看,多个captions之间存在冗余和不连贯。因此,本文从上述问题出发,提出了Adversarial Inference方法。
- 贡献
- 使用对抗学习生成video captions (descriptions),基于判别器得到的score选择最优sentence。
- 提出hybrid discriminator(混合判别器),由三种特定的判别器组合而成,取得了比单一判别器更好的结果。
- 在多个标准上和其他方法进行了对比,在human evaluation中得到了最优的结果。
- 方法
本文方法的整体框架如下图所示。整体上共分为三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于编码event的特征(本文假设segment已经给出),提取三种特征,分别是:帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention,再将三种特征拼接,使用fc得到最终特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator(判别器)选择最优sentence。
判别器的结构如下图所示,使用三类信息对sentence进行判别,分别是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判断sentence和event的关联程度,这部分和Generator有些类似,提取出video的三种特征,同时提取sentence的BOW特征(词袋特征),将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息,这部分使用双向LSTM对sentence进行编码,在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度,使用双向LSTM对相邻的sentence进行编码,再通过fc层回归出score。
- 实验
在ActivityNet Captions数据集上的实验结果:
消融实验结果展示:
CVPR2019:MARN
- 题目
Memory-Attended Recurrent Network for Video Captioning
下载链接
本文出自腾讯和南科大王向荣老师 - 动机
已有的video captioning方法的框架大多是encoder-decoder,在生成captions时,只能从一个video中读取信息。而本文作者发现,有很多actions和context在不同的训练数据中会反复出现,只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network,通过在传统的encoder-decoder框架中添加attended memory decoder模块,利用多个video来辅助当前处理的video生成caption。
- 贡献
- 本文方法可以capture每个单词与多种similar visual contexts的关系。
- 本文模型可以对每个单词获得更加全面的理解,提高captions的质量。
- 本文的built memory结构可以显式地对相邻单词的兼容性进行建模,不像大多数现有模型那样要求模型进行隐式学习。
- 实验结果表明,本文方法已超过state-of-the-art。
- 方法
本文方法的整体架构如下图所示,共分为三个部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分,首先对video进行2D和3D特征提取,并添加attention,再进行concatenate,得到最终特征。Decoder部分,使用GRU生成captions。
本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder,提高captions的质量。具体的作用在于:①对于每个单词,可以从多个video scenes中捕获有用信息;②传统方法中,预测下一个单词通常只依赖于当前单词和其context,本文方法可以明确的对相邻单词的兼容性进行建模。
Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存储的是单词 w w w到描述 d d d的映射 < w , d > <w,d> <w,d>。而 d d d主要包括三方面信息:视觉上下文(visual context) g r g_r gr、词嵌入(word embedding) w r w_r wr和辅助特征(auxiliary features) u r u_r ur。其中, g r g_r gr的生成方式如下图所示,提取所有和单词 w r w_r wr相关的videos的2D和3D特征,添加attention后,选Top-k个,进行标准化,再加和即可。 e r e_r er使用的是Attention-based Recurrent Decoder训练得到的。 u r u_r ur是辅助特征,本文使用的是video类别信息。
除上文以外,本文还提出了AC Loss,形如公式(13)。主要思想是,在对2D特征添加attention时,相邻两帧的权重应该相差不大,故在损失中添加了抑制项 ∣ a i , t ( n ) − a i − 1 , t ( n ) ∣ |a^{(n)}_{i,t}-a^{(n)}_{i-1,t}| ∣ai,t(n)−ai−1,t(n)∣。
在训练时,本文先训练传统的Encoder-Decoder部分,再训练Attender Memory Decoder。 - 实验
在MSR-VTT和MSVD数据集上进行的消融实验
对memory components进行的消融实验
在MAR-VTT数据集上,与其他模型的对比
在MSVD数据集上,与其他模型的对比
实验结果展示
CVPR2019:SDVC
- 题目
Streamlined Dense Video Captioning
下载链接 - 动机
这篇文章是做Dense Video Captioning(以下简称DVC),就是在一个长视频中找出所有的events,然后对每一个event生成caption。在这个问题中,现有的方法都是分为两个步骤,首先,提取event proposals,然后,生成captions。这会导致生成的captions存在冗余和不一致,因为没有考虑events之间的时间依赖性。
- 贡献
- 提出一个新颖的DVC方法,可以利用events之间的时间依赖性生成captions。
- 提出使用two-level (episode, event) rewards的强化学习方法,可以提高captions之间的一致性和event description的质量。
- 可以达到state-of-the-art。
- 方法
和现有方法对比,Event Detection的区别如下图所示。已有的方法都是提取独立的event,本文将提取的event进行排序,生成序列的captions,加强captions之间的关联性。
本文方法的整体框架如下图所示,主要分为三部分:Event Proposal Network(以下简称EPN)、Event Sequence Generation Network(以下简称ESGN)和Sequential Captioning Network(以下简称SCN)。其中,EPN模块用于提取event,follow了CVPR2017的SST。ESGN模块用于对上一个模块得到的events进行排序,先将候选的proposals按照开始时间排序,然后输入到RNN中,在每一步,生成每个proposal的概率,概率最大的proposal作为当前步的event。SCN模块用于生成captions,使用双层RNN结构,同时考虑visual context和linguistic context。
由于具有三个模块,本文使用的损失也分为三部分,与三个模块分别对应。损失的具体形式如下,这里不一一介绍了。值得注意的是,SCN部分使用强化学习进行训练,公式(14)是reward。
- 实验
ActivityNet Captions validation set上的实验结果
ActivityNet Captions validation set上的消融实验
实验结果展示
AAAI2019:FCVC-CF&IA
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:TAMoE
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:MGSA
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:TDConvED
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCV2019:POSSG-GFN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCV2019:SRL-VCT
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCVW2019:Tale
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCVW2019:EtENet-IRv2
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
IJCAI2019:ViCap(new task)
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TCSVT2019:DS-RNN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TIP2019:CAM-RNN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TMM2019:STAT
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验