摘要翻译
这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧,我们借助视频的这个特点来表达视频的高层特征(备注,视频和图像的高层特征通常就是指understanding层面)。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器,此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)。之后,训练一个多层感知机(MLP)把图像序列的表征向量和word2vec语义文本向量嵌入到一起。我们通过几个任务表面我们的方法可以很好的表达视频的时空和语义信息,这些任务包括动作识别、zero-shot分类和”word-to-video”的检索任务,以上任务都是在UCF-101视频数据集上实现的。
网络框架
一图知全文系列,简单概括下这个网络:
- 视频预处理:将一个视频片段预处理为原始的视频帧序列和光流帧序列,然后作为网络的两个输入端口
- 提取图像空间特征:利用CNN网络分别提取两个视频流的图像空间特征,根据论文中提到的,使用的CNN是预训练的VGG-f网络
- 提取视频时序特征:将上一步提取的两个特征张量分别放到两个GRU网络中去提取时序特征,得到两个特征向量
- 用MLP进行embedding训练:将上一步提取的两个特征向量合并作为MLP的输入,然后训练embedding。
特别说明最后MLP输出的loss函数由两部分组成,分别是语义损失( E