Collaborative Spatiotemporal Feature Learning for Video Action Recognition 阅读笔记

最新推荐文章于 2022-07-04 19:22:24 发布

捡贝壳的男孩

最新推荐文章于 2022-07-04 19:22:24 发布

阅读量243

点赞数

分类专栏：图像视频处理文章标签： pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43187760/article/details/109587011

版权

图像视频处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文笔记

1 介绍

1.1 引子

在本文中，我们提出了一种新颖的协作时空（CoST）特征学习操作，它与权重共享约束共同学习时空特征。

给定3D体积视频张量，我们通过从不同角度观看它们，将其展平为三组2D图像。然后将2D卷积应用于每组2D图像。

在这里插入图片描述

图1示出了来自示例性视频剪辑的三个视图的2D快照，其中一个人在体育场高跳。

H-W的视图是人类熟悉的自然景观。通过在时间T上从该视图逐帧扫描视频，我们能够理解视频内容。尽管来自涉及T（即T-W和T-H）的视图的快照难以为人类解释，但它们包含与正常H-W视图完全相同的信息量。

更重要的是，丰富的运动信息嵌入在每个帧内而不是帧之间。因此，T-W和T-H视图的帧上的2D卷积能够直接捕获时间运动线索。如图2（c）所示，通过融合三个视图的互补空间和时间特征，我们能够使用2D卷积而不是3D卷积来学习时空特征。

1.2 CoST 学习架构

基于CoST操作，我们构建卷积神经网络。我们今后将把操作和网络都称为CoST

在这里插入图片描述

不同视图的卷积内核可以共享的原因：

（1）从不同视图的框架的可视化来看（见图1），它们的视觉外观是兼容的。例如，在时间视图（T-H和T-W）中也存在常见的空间模式，如边和颜色斑点。因此，同一组卷积核可以应用于不同视图的帧上。

（2）C2D网络中的卷积核本质上是冗余的，（？？？）没有修剪[9，15，31]。而冗余核可以通过权值共享的方式进行时间特征学习。

（3）可以大大减少了模型参数的数量，使网络更容易训练，不易过度拟合，性能更好。

（4）此外，静态图像空间特征学习的成功（如精心设计的网络结构和预训练参数）可以很容易地转移到时间域。（因为作者做到了在每个视图中学习每个通道的独立系数，这使得网络可以按需处理空间或时间特征。）

1.3 CoST 的优点

与C2D相比，CoST可以共同学习时空特征。 与C3D相比，CoST基于2D而不是3D卷积。 CoST基本上弥合了C2D和C3D之间的差距，从而保留了双方的优势，即C2D的紧凑性和C3D的表现能力。

对于视频中的动作识别任务，实验表明CoST比C2D和C3D都具有更好的性能。

2 代码实现

continue 。。。

捡贝壳的男孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 阅读笔记

论文笔记1 介绍1.1 引子在本文中，我们提出了一种新颖的协作时空（CoST）特征学习操作，它与权重共享约束共同学习时空特征。给定3D体积视频张量，我们通过从不同角度观看它们，将其展平为三组2D图像。然后将2D卷积应用于每组2D图像。图1示出了来自示例性视频剪辑的三个视图的2D快照，其中一个人在体育场高跳。H-W的视图是人类熟悉的自然景观。通过在时间T上从该视图逐帧扫描视频，我们能够理解视频内容。尽管来自涉及T（即T-W和T-H）的视图的快照难以为人类解释，但它们包含与正常H-W视图完全
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。