【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

本文介绍了Video2Vec技术,通过结合CNN、GRU和word2vec,学习视频的语义和时空信息嵌入。该方法在UCF-101数据集上用于动作识别、zero-shot分类和视频检索,表现优秀。
摘要由CSDN通过智能技术生成

摘要翻译

这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧,我们借助视频的这个特点来表达视频的高层特征(备注,视频和图像的高层特征通常就是指understanding层面)。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器,此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)。之后,训练一个多层感知机(MLP)把图像序列的表征向量和word2vec语义文本向量嵌入到一起。我们通过几个任务表面我们的方法可以很好的表达视频的时空和语义信息,这些任务包括动作识别、zero-shot分类和”word-to-video”的检索任务,以上任务都是在UCF-101视频数据集上实现的。

网络框架

这里写图片描述
一图知全文系列,简单概括下这个网络:

  • 视频预处理:将一个视频片段预处理为原始的视频帧序列和光流帧序列,然后作为网络的两个输入端口
  • 提取图像空间特征:利用CNN网络分别提取两个视频流的图像空间特征,根据论文中提到的,使用的CNN是预训练的VGG-f网络
  • 提取视频时序特征:将上一步提取的两个特征张量分别放到两个GRU网络中去提取时序特征,得到两个特征向量
  • 用MLP进行embedding训练:将上一步提取的两个特征向量合并作为MLP的输入,然后训练embedding。

特别说明最后MLP输出的loss函数由两部分组成,分别是语义损失( E

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值