Memory-Attended Recurrent Network for Video Captioning 这篇论文发表在2019年的CVPR上。作者Wenjie Pei等人来自腾讯和南方科技大学。
研究动机
目前做视频描述的主流框架是编码器-解码器(encoder-decoder)结构。这种架构潜在的劣势在于它无法捕捉存在于在当前视频之外的视频文本信息。作者为了解决生成描述时只显式地根据当前视频的问题,在目前流行模型中嵌入了记忆体(memory structure)。该记忆体能够在词汇表中的单词和相关视频内容建立映射关系。这些视频内容来源于整个训练集。模型在对视频进行的文字描述时,能够利用记忆体提供的信息。论文声称:记忆体让模型产生质量更好的文字描述,同时能够显式地在相邻两个单词之间建模。
模型概述
该论文提出了一种名为Memory-Attended Recurrent Network(MARN)的模型。这个模型由三部分组成:编码器(encoder)、基于注意力机制的循环解码器(attention-based recurrent decoder)和带记忆体的解码器(attended memory decoder)。大致结构如下图所示。
编码器
编码器由两部分组成,一部分是2D卷积网络,提取二维视觉信息,另一部分是3D卷积网络,提取三维视觉信息。具体实现时,作者使用ResNet-101作为2D卷积网络,ResNeXt-101作为3D卷积网络。这里的ResNeXt101网络使用了3D卷积层,并在Kinetics数据集上做了预训练。2D卷积网络对视频帧进行处理后,可以得到,3D卷积网络处理得到的特征是。然后将两者投射到相同的隐藏空间中得到编码器的输出:
基于注意力的解码器
基于注意力机制的循环解码器主要基于带有柔性注意力的长短期记忆体(soft-attention LSTM)。作者在这里用GRU代替了LSTM。柔性注意力机制主要是利用上一次迭代产生的隐藏状态结合当前输入得到每帧视频