Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表在2019年的CVPR上。作者Nayyer Aafaq等人来自西澳(大利亚)大学。这是一篇改进视频描述工作的论文。作者观察到近期的视频描述工作主要集中于改进解码器(decoder),而较少关注特征提取的部分。作者认为从视频中提取更好的特征也是非常重要的。这篇论文主要有两个贡献:第一就是用层级的短时傅里叶变换对卷积网络提取出来的特征进行浓缩,把时间信息融入其中;第二就是用物体检测模型从视频中提取高层的语义信息,丰富编码器提炼的视频表示。
InceptionResNetv2和C3D分别被用作2D的卷积网络和3D的卷积网络。YOLO在这里被用作物体检测模型。
方法
视频描述这个任务就是在给定视频,生成一句话
(包含w个单词)来精确描述视频的内容。在从视频中提取出特征
后,普遍使用的优化目标函数就是句子中每个单词概率对数的加和
。
如果用表示解码器映射,
表示编码器映射,
表示句子,那么我们可以把视频描述表示为
。接下来介绍作者对
的改进。
在这里,视频的特征表示主要由四部分组成。
2D卷积网络从视频中提取出特征,3D卷积网络从视频中提取出特征