A Fine-grained Spatial-Temporal Attention Model for Video Captioning

使用一种细粒度的时空注意模型进行视频描述
AN-AN LIU1, (Member, IEEE), YURUI QIU1, YONGKANG WONG2, (Member, IEEE),
YU-TING SU1, and MOHAN KANKANHALLI3, (Fellow, IEEE)
1School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China
2Smart Systems Institute, National University of Singapore, Singapore, 119613
3School of Computing, National University of Singapore, Singapore, 117417

概述

注意机制(Attention mechanism)在视频描述领域的应用。然而,大多数现有的视频描述方法在帧级上应用注意机制,其仅对时域结构 进行建模并生成单词,但忽略提供与语义内容对应的准确视觉特征的区域级空间信息。在这篇论文中,作者提出了一种细粒度的时空注意模型(FSTA),视频中出现的物体的空间信息将成为我们的主要关注点。
在提出的FSTA中,我们通过Mask Pooling Module在细粒度区域级别的对象中实现spatial hard-attention,并通过使用具有注意机制的两层LSTM网络来计算temporal soft-attention来生成句子。

1.介绍

视频描述任务很重要。
encoder-decoder framework
首先使用CNN将视频帧解析为一系列特征向量,然后使用RNN或者LSTM来生成描述。
灵感:下面这篇论文采用注意机制来加权每个时间特征向量,选择性地关注几个视频帧以利用时间结构。直觉上,时间结构线索和空间视觉信息是视频描述任务中的两个关键要素。(也是视频质量评价的两个关注点,重要是怎么将两个特征结合在一起)

L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle, and A. Courville, “Describing videos by exploiting temporal structure,” pp. 4507–4515, 2015.

对于时间线索,大多数方法采用基于注意力的RNN来模拟生成的单词和相关帧之间的关系。然而大多数基于注意力的模型没有关注空域信息的能力,但空域信息在视频描述中是至关重要的。与时域关注(temporal attention)相比,region-level attention区域级别的注意力更具解释性,它可以通过选择重要的和有区别的语义区域来描述视觉内容,从而避免更多不相关的信息。 目前在物体检测与物体的分割领域取得了巨大的成功,尤其是Faster R-CNN [12] and Mask R-CNN [14]在物体检测和分割上取得很好的效果。此外,Mask R-CNN是一种先进的分割方法,可以生成高质量的图像分割掩模。受这些任务的启发,作者想法是突出的对象区域更有助于捕获语义信息,并且可以有效地补充时间线索以生成更像人类的描述。提出了一个Mask Pooling Module,专注于感兴趣的内容,实现了区域级别的关注region-level attention

作者提出了细粒度时空注意模型(FSTA)为视频描述任务选择具有时间线索的重要且不同的语义区域。它可以处理高度相关的区域级视觉特征并捕捉视频的时间线索。我们的方法可以被认为是软注意和硬注意的自适应融合。具体地,当生成视频描述时,编码器将视频逐帧编码成视觉内容的一组细粒度特征。我们使用Mask Pooling Module,这是hard-attention的应用在精确区域中提取视觉内容的特征。然后,我们使用具有软注意机制的双层LSTM网络作为解码器来生成单词。
在这里插入图片描述

这篇文章的主要贡献:

  • 我们提出了一种用于视频字幕的细粒度时空关注模型
  • 我们设计了Mask Pooling Module来对视频帧进行编码,这是一个区域级的硬注意模块,可以提取区域中可视内容的特征,并且可以逐帧获得细粒度区域的视觉特征。
  • 提出的模型取得了很好的预测效果
  • 这个模型重点关注相关时间段的详细区域级特征。与以前的工作相比,我们的方法可以捕获每个帧中感兴趣的语义概念区域并对视频的时间结构进行建模。在这个方法中使用了物体分割方法。

2.方法

FSTA 在关注感兴趣的语义内容区域,生成视频描述。
两方面:第一方面是使用CNN的 Mask Pooling Module,这是一种区域级别的hard-attention method
第二部分旨在生成基于LSTM网络的视频标注,具有时间上soft-attention。
下面先介绍通用的视频标注框架,然后再详细的介绍视觉特征提取和视频描述生成的细节。

A. 通用框架
B. MASK POOLING MODULE

Mask RCNN 不仅可以定位物体在图像中的位置,还可以为每个物体生成高质量的图像划分。由于我们的目的是在区域级别获得更细粒度的特征,我们提出了Mask Pooling Module,如图所示。
在这里插入图片描述

Mask R-CNN包含两部分:第一部分通过扫描图像的特征图,生成可能包含对象的边界框提议,称为Region Proposal Network,RPN。Mask R-CNN模型预测每个空间位置处的类别不可知分数,以确定其是否包含对象并and predicts multiple scales and aspect ratio anchor box proposals。使用非最大抑制方法,其交叉联合(IoU)不大于IoU阈值的最大置信度的框将被保留作为下一部分的输入。在第二部分中,每个候选框的特征将由RoIAlign模块提取。然后对象类预测,边界框偏移和对象掩模生成将并行完成。根据ResNet101和FPN实现Mask R-CNN。我们使用每一帧 object mask的预测结果和使用ResNet主干(conv5 layer)提取的特征图,来计算视频的特征set V。对每一个输入的视频帧,我们可以得到一组mask M = {m1, m2 …mk, mk+1},其中k是对象掩模的数量,mk+1是背景掩模,并且掩码中的所有元素都是二进制表示。同样有一系列特征图 F 。通常
视觉特征ResNet-101 feature,通过简单的平均值池化,它简单地按通道平均每个特征图中所有像素的特征。
文中提出的 Mask Pooling Module 是平均视觉特征图F中与object masks显著相关的像素值

The proposed Mask Pooling Module only average the visual features of pixels that are significantly related to
the object masks.

在这里插入图片描述

这个方法很神奇,之前没有考虑过,把图像分割与图像特征图结合到一起应用。分割出的不同物体(object)可以当作视觉注意的区域,用该区域对提取的特征图进行加权得到新的特征图,特征图的数量和分割出的对象数目相同。

We use the prediction of object mask and the feature maps extracted from ResNet backbone (conv5 layer) for each frame to compute the video features set V for video captioning.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值