2019年, video captioning论文汇总

CVPR2019:GRU

  • 题目
    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    下载链接
  • 动机
    现有的方法主要关注使用RNN生成captions,visual features都是直接通过CNN提取。作者认为visual features也是很重要的,于是提出使用层级快速傅里叶变换得到视频的时序信息。此外,本文还从object detector中获取高级语义信息。
  • 贡献
  1. 本文提出一种visual encoding技术,可以有效的编码video的时空信息,并将相关的高级语义信息嵌入到visual codes中。
  2. 本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
  3. 本文建立了一个GRU-based language model,达到了最新的state-of-the-art。
  • 方法
    本文方法的整体框架如下图所示。

    从图中可以看出,本文对video frames同时使用2D-CNN和3D-CNN提取特征,将提取到的特征进行如下图所示的傅里叶变换。整体框架图中,最上侧和最下侧有两条红色的流程线,上侧的代表object的高级语义信息,下侧的代表action的语义信息,分别和Dictionary取交集后,得到特征向量。最后,将2D特征、3D特征、两种语义信息输入到Sequence model中,即可得到模型输出。
  • 实验
    在MSVD数据集上的实验结果。GRU表示使用了两层GRU,MP表示使用均值池化处理视频的时间维度,C3D和IRV2代表计算visual code的方法,CI表示将C3D和IRV2一起使用, E V E h f t \rm EVE_{hft} EVEhft表示使用傅里叶变换, E V E h f t + s e m \rm EVE_{hft+sem} EVEhft+sem表示使用傅里叶变换和高级语义信息。

    结果展示:

CVPR2019:OA-BTG

  • 题目
    Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
    下载链接
    本文出自Facebook AI
  • 动机
    captions的质量往往依赖于video representations,因此,找出视频中的显著物体,并了解它们的运动轨迹,对提升captions的质量有很大帮助。
  • 贡献
  1. 使用Bidirectional Temporal Graph(双向时序图)捕获显著物体的时序信息和global context,从而生成更准确的captions。
  2. 基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征,并使用分层注意力机制得到不同objects的contributions。
  • 方法
    本文方法的整体框架如下图所示,共分为三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

    第一部分,Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧,提取出Object Regions。然后,使用相似性度量处理出object的时序图,正序和反序的都要处理。相似性度量主要从三方面(特征相似性、IoU、面积)考虑,具体计算公式形如公式(1)。



    第二部分,Object-aware Aggregation。 这部分使用VLAD模型,对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序,故得到四组特征序列。

    第三部分,Decoder。 对于区域序列,使用分层注意力机制(时间(or 时序)注意力+空间注意力)。对于全局帧序列,使用时序注意力。添加attention后,将特征输入到GRU中得到captions。
  • 实验
    在MSVD数据集上的实验结果

    在MSR-VTT数据集上的实验结果

    消融实验

    Successful结果展示

    Failed结果展示,感觉生成的也挺对的。

CVPR2019:MLE+HybirdDis

  • 题目
    Adversarial Inference for Multi-Sentence Video Description
    下载链接
  • 动机
    现有的video captioning方法中,先将视频分为多个events,再对每个event生成caption。这样得到的captions对于单个event看起来比较好,但是从整个视频来看,多个captions之间存在冗余和不连贯。因此,本文从上述问题出发,提出了Adversarial Inference方法。
  • 贡献
  1. 使用对抗学习生成video captions (descriptions),基于判别器得到的score选择最优sentence。
  2. 提出hybrid discriminator(混合判别器),由三种特定的判别器组合而成,取得了比单一判别器更好的结果。
  3. 在多个标准上和其他方法进行了对比,在human evaluation中得到了最优的结果。
  • 方法
    本文方法的整体框架如下图所示。整体上共分为三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于编码event的特征(本文假设segment已经给出),提取三种特征,分别是:帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention,再将三种特征拼接,使用fc得到最终特征。Sampling from the GeneratorSelecting the sentence based on the Discriminator使用Discriminator(判别器)选择最优sentence。

    判别器的结构如下图所示,使用三类信息对sentence进行判别,分别是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判断sentence和event的关联程度,这部分和Generator有些类似,提取出video的三种特征,同时提取sentence的BOW特征(词袋特征),将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息,这部分使用双向LSTM对sentence进行编码,在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度,使用双向LSTM对相邻的sentence进行编码,再通过fc层回归出score。
  • 实验
    在ActivityNet Captions数据集上的实验结果:

    消融实验结果展示:

CVPR2019:MARN

  • 题目
    Memory-Attended Recurrent Network for Video Captioning
    下载链接
    本文出自腾讯和南科大王向荣老师
  • 动机
    已有的video captioning方法的框架大多是encoder-decoder,在生成captions时,只能从一个video中读取信息。而本文作者发现,有很多actions和context在不同的训练数据中会反复出现,只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network,通过在传统的encoder-decoder框架中添加attended memory decoder模块,利用多个video来辅助当前处理的video生成caption。
  • 贡献
  1. 本文方法可以capture每个单词与多种similar visual contexts的关系。
  2. 本文模型可以对每个单词获得更加全面的理解,提高captions的质量。
  3. 本文的built memory结构可以显式地对相邻单词的兼容性进行建模,不像大多数现有模型那样要求模型进行隐式学习。
  4. 实验结果表明,本文方法已超过state-of-the-art。
  • 方法
    本文方法的整体架构如下图所示,共分为三个部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分,首先对video进行2D和3D特征提取,并添加attention,再进行concatenate,得到最终特征。Decoder部分,使用GRU生成captions。

    本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder,提高captions的质量。具体的作用在于:①对于每个单词,可以从多个video scenes中捕获有用信息;②传统方法中,预测下一个单词通常只依赖于当前单词和其context,本文方法可以明确的对相邻单词的兼容性进行建模。

    Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存储的是单词 w w w到描述 d d d的映射 < w , d > <w,d> <w,d>。而 d d d主要包括三方面信息:视觉上下文(visual context) g r g_r gr、词嵌入(word embedding) w r w_r wr和辅助特征(auxiliary features) u r u_r ur。其中, g r g_r gr的生成方式如下图所示,提取所有和单词 w r w_r wr相关的videos的2D和3D特征,添加attention后,选Top-k个,进行标准化,再加和即可。 e r e_r er使用的是Attention-based Recurrent Decoder训练得到的。 u r u_r ur是辅助特征,本文使用的是video类别信息。

    除上文以外,本文还提出了AC Loss,形如公式(13)。主要思想是,在对2D特征添加attention时,相邻两帧的权重应该相差不大,故在损失中添加了抑制项 ∣ a i , t ( n ) − a i − 1 , t ( n ) ∣ |a^{(n)}_{i,t}-a^{(n)}_{i-1,t}| ai,t(n)ai1,t(n)

    在训练时,本文先训练传统的Encoder-Decoder部分,再训练Attender Memory Decoder。
  • 实验
    在MSR-VTT和MSVD数据集上进行的消融实验

    对memory components进行的消融实验

    在MAR-VTT数据集上,与其他模型的对比

    在MSVD数据集上,与其他模型的对比

    实验结果展示

CVPR2019:SDVC

  • 题目
    Streamlined Dense Video Captioning
    下载链接
  • 动机
    这篇文章是做Dense Video Captioning(以下简称DVC),就是在一个长视频中找出所有的events,然后对每一个event生成caption。在这个问题中,现有的方法都是分为两个步骤,首先,提取event proposals,然后,生成captions。这会导致生成的captions存在冗余和不一致,因为没有考虑events之间的时间依赖性。
  • 贡献
  1. 提出一个新颖的DVC方法,可以利用events之间的时间依赖性生成captions。
  2. 提出使用two-level (episode, event) rewards的强化学习方法,可以提高captions之间的一致性和event description的质量。
  3. 可以达到state-of-the-art。
  • 方法
    和现有方法对比,Event Detection的区别如下图所示。已有的方法都是提取独立的event,本文将提取的event进行排序,生成序列的captions,加强captions之间的关联性。

    本文方法的整体框架如下图所示,主要分为三部分:Event Proposal Network(以下简称EPN)、Event Sequence Generation Network(以下简称ESGN)和Sequential Captioning Network(以下简称SCN)。其中,EPN模块用于提取event,follow了CVPR2017的SSTESGN模块用于对上一个模块得到的events进行排序,先将候选的proposals按照开始时间排序,然后输入到RNN中,在每一步,生成每个proposal的概率,概率最大的proposal作为当前步的event。SCN模块用于生成captions,使用双层RNN结构,同时考虑visual context和linguistic context。

    由于具有三个模块,本文使用的损失也分为三部分,与三个模块分别对应。损失的具体形式如下,这里不一一介绍了。值得注意的是,SCN部分使用强化学习进行训练,公式(14)是reward。





  • 实验
    ActivityNet Captions validation set上的实验结果

    ActivityNet Captions validation set上的消融实验

    实验结果展示

AAAI2019:FCVC-CF&IA

AAAI2019:TAMoE

AAAI2019:MGSA

AAAI2019:TDConvED

ICCV2019:POSSG-GFN

ICCV2019:SRL-VCT

ICCVW2019:Tale

ICCVW2019:EtENet-IRv2

IJCAI2019:ViCap(new task)

TCSVT2019:DS-RNN

TIP2019:CAM-RNN

TMM2019:STAT

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值