【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

最新推荐文章于 2022-11-16 20:20:47 发布

迷川浩浩_ZJU

最新推荐文章于 2022-11-16 20:20:47 发布

阅读量2.6k

点赞数

分类专栏：论文笔记视觉语义文章标签：深度学习语义分析视频识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21190081/article/details/61920253

版权

本文介绍了Video2Vec技术，通过结合CNN、GRU和word2vec，学习视频的语义和时空信息嵌入。该方法在UCF-101数据集上用于动作识别、zero-shot分类和视频检索，表现优秀。

摘要由CSDN通过智能技术生成

摘要翻译

这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧，我们借助视频的这个特点来表达视频的高层特征（备注，视频和图像的高层特征通常就是指understanding层面）。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器，此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)。之后，训练一个多层感知机(MLP)把图像序列的表征向量和word2vec语义文本向量嵌入到一起。我们通过几个任务表面我们的方法可以很好的表达视频的时空和语义信息，这些任务包括动作识别、zero-shot分类和”word-to-video”的检索任务，以上任务都是在UCF-101视频数据集上实现的。

网络框架

这里写图片描述
一图知全文系列，简单概括下这个网络：

视频预处理：将一个视频片段预处理为原始的视频帧序列和光流帧序列，然后作为网络的两个输入端口
提取图像空间特征：利用CNN网络分别提取两个视频流的图像空间特征，根据论文中提到的，使用的CNN是预训练的VGG-f网络
提取视频时序特征：将上一步提取的两个特征张量分别放到两个GRU网络中去提取时序特征，得到两个特征向量
用MLP进行embedding训练：将上一步提取的两个特征向量合并作为MLP的输入，然后训练embedding。

特别说明最后MLP输出的loss函数由两部分组成，分别是语义损失( E

最低0.47元/天解锁文章

迷川浩浩_ZJU

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。