Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019.

摘要
  • 自动生成视频字幕是一项基本的计算机视觉的任务,最近使用CNN和RNN技术解决该任务。这些方法主要关注于使用RNN序列学习方法生成更好的字幕,但却忽略了使用CNN提取特征的重要性。我们精心设计了一个视觉特征编码的机制以辅助RUGs产生语义丰富的字幕。我们的方法将丰富的时空动态特征使用Short Fourier Transform短时傅里叶转换的方法为整个视频提取CNN特征,使用一个物体检测器获取高层语义信息以丰富检测物体的时序动态变化。实验结果表明使用相对简单的两层GRU层建立一个模型即可在MSVD和MSR-VTT数据集上获得sota的效果。
Related Work
  • Early methods:主要模型是SVO-Triplet,即Subject-Verb-Object。分别检测这三个部分然后组合到一个句子模板中。Kojima等人解决一个人做一个动作的视频描述工作,严重依赖于动作检测和状态转移模型,无法解决复杂视频描述问题。Hanckmann等人提出了自动描述多动作视频的方法。
    Krishnamoorthy等人提出开放域视频描述解决方案。Guadarrama等人建模动作、物体和表演者之间关系已生成语义层次信息。Rohrbach等人使用CRF建模视觉实体和描述文本之间关系。然而这些工作都依赖于预先设定好的语言模板,将检测的实体填入模板生成句子,这样的方法不够灵活,无法描述开放域视频中的丰富语义信息。
  • Deep Learning:使用经典的神经机器翻译系统生成单个句子或者多个句子,CNN编码视觉上下文特征,RNN解码下一个单词的选择问题。因为生成语义正确的句子是NLP的一个长期任务,因此在视频字幕任务中更偏向解决解码问题,而对于编码问题,无非就是使用2D CNN提取视频frame-level特征,使用3D CNN提取视频clip-level特征。多使用mean pooling计算整个视频的最终表示。比如LSTM-YT使用平均池化所有视频帧的视觉信息后输入到LSTM中。LSTM-E探索了视觉上下文和句子语义之间的相关性,尽管使用2D和3DCNN提取特征,但平均池化的操作还是忽视了时间动态信息。TA使用注意力机制为每一帧分配权重解决了这个问题。S2VT基本建立了常用的基础模型。SCN-LSTM提出语义聚合网络可以检测平均池化后的视觉上下文中的语义概念信息然后输入到语言模型中生成更多相关的词语。LSTM-TSA提出了一个转换单元能够提取画面和平均池化后的片段中的语义属性作为附加信息提升生成字幕的质量。M3-VC则使用多模态记忆网络聚合长期的视觉和文本依赖指导视觉注意力机制。
  • 而本文是第一个关注于提高编码机制以解决视频字幕任务的工作。本文提出了一个视觉编码机制,使用时空动态信息丰富表征,解释说明视频的高层语义信息。我们的视觉编码有2D和3D输入源,应用短时傅里叶转换在InceptionResNetv2和C3D上,使用Object Detector(YOLO)提取编码物体的位置和多层物体信息,丰富语义信息。然后像其他工作一样使用双层GRU作为语言模型。在MSVD和MSR-VTT数据集上分别在METEOR和ROUGE-L提高了2.64%和2.44%。
Framework

在这里插入图片描述

  • 本文使用 v = [ α ; β ; γ ; η ] v=[α; β; γ; η] v=[α;β;γ;η]作为视频的最终表征。
  • 首先定义转换 T f ( F ) − > α T_f(F) -> α Tf(F)>α T f ( C ) − > β T_f(C) -> β Tf(C)>β,其中 F F F是视频帧2D特征的激活向量, C C C是视频片段3D特征的激活向量,是使用层次短时序转换后得到视频的动态编码特征 α 和 β α和β αβ
  • 其中,2D特征是 I n c e p t i o n R e s n e t V 2 InceptionResnetV2 InceptionResnetV2的平均池化特征计算得到,3D特征使用 C 3 D 的 f c 6 C3D的fc6 C3Dfc6层得到的。使用层次形式的傅里叶转换已经在动作识别中使用,这是第一次迁移到视频字幕任务中。
  • 之后使用如全连接层等作为激活视觉特征的方法,可以区分高层视频特征的转换信息,因此我们的特征更能作为判别式编码信息使用,其输出标签可以看作是提取特征的另一种映射,输出层的语义信息也可在视频字幕中作为输出层的一种属性。
  • 使用 Y O L O YOLO YOLO作为物体检测,使用 C 3 D C3D C3D的作为3D CNN提取视频中记录的物体和动作高层语义信息,其核心思想就是将出现的频率和所处区域重要程度体现在编码信息中。而物体检测的多物体标签和在不同帧中的位置信息也可以作为细节嵌入到视觉编码中,辅助细粒度分类。对于物体的动作信息的检测,也可以使用3D CNN获取并丰富之前的视频编码信息,作为新的3D CNN特征。这些物体的细节信息作为相关高层语义信息 γ γ γ输入到视频字幕系统的序列学习中。
  • 将这些信息使用全连接层和tanh激活函数嵌入到2k维空间。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值