论文阅读《Spatiotemporal Multiplier Networks for Video Action Recognition》

最新推荐文章于 2022-10-24 00:15:00 发布

BojackHorseman

最新推荐文章于 2022-10-24 00:15:00 发布

阅读量3.6k

点赞数 2

分类专栏：论文阅读 deep-learning

本文链接：https://blog.csdn.net/bojackhosreman/article/details/78654753

版权

本文介绍了《Spatiotemporal Multiplier Networks for Video Action Recognition》的研究，提出了一种利用乘法交互的双流网络，以改进动作识别。通过在ResNet基础上构建，并探索了相乘和相加两种流之间的融合方式，发现相乘交互能更有效地捕获时空特征。此外，论文还引入了一维时间卷积以增强长期依赖性的捕捉。实验表明，这种网络结构在性能上优于传统的双流网络。

摘要由CSDN通过智能技术生成

Spatiotemporal Multiplier Networks for Video Action Recognition

2017CVPR
Christoph Feichtenhofer：http://feichtenhofer.github.io/

Abstract

加入恒等映射核来捕捉长期依赖。

Intro

ST-ResNet：没有提供它的设计选择有系统的理由
重新考虑双流的结合，ResNet较为深入的增加了解这些技术是如何相互作用的
引入这些新的结构，产生了一个新的动作识别方法。

3 main contributions

展示了一种可乘的运动外观流，表现非常好
讨论在长期输入的情况下，生成ST-ResNet的几种方法（提出了加入时间核），这种方法允许新的时间聚合核注入，甚至进入了网络的skip path。
基于如何在residual connections之间融合双流，并且扩展到时间维度，提出了通用的卷积结构，用于动作识别。

Historically：HOF,MBH,trajectories,HOG3D,Cubiods,SOEs
More recently:

unsupervised learning,
makes use of a combination of hand-crafted and learned features
C3D
aggregation of temporal information over extended time periods.(dynamic-image/LSTM/RNN/Siamese architecture/)
2-stream

Two-stream multiplier networks

3.1. Baseline architecture

双流，卷积网络在appearance上容易过拟合。
在每个流上都用ResNet作为base network architecture。

3.2. Connecting the two streams

加入cross-stream残差连接。提出了几种连接方式：
但是简单的cross-residual连接这两种流的层次导致了较低的分类与(非连接)两流的性能相比基线。我们推测，性能下降是由于这些层的输入分布的巨大变化在注入融合后的一个网络流中来自另一个流的信号。
此处输入图片的描述

3.2.1 Additive interaction 相加

X^a l + 1 = f (X a l) + F (X a l + f (X m l), W a

最低0.47元/天解锁文章

BojackHorseman

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
论文阅读《Spatiotemporal Multiplier Networks for Video Action Recognition》

论文阅读《Spatiotemporal Multiplier Networks for Video Action Recognition》标签（空格分隔）：未分类Spatiotemporal Multiplier Networks for Video Action Recognition2017CVPR Christoph Feichtenhofer：http://feichtenhofer.g
复制链接

扫一扫