【论文】Convolutional Two-Stream Network Fusion for Video Action Recognition

最新推荐文章于 2022-11-06 22:00:47 发布

Andrearn

最新推荐文章于 2022-11-06 22:00:47 发布

阅读量4.3k

点赞数 8

分类专栏：行为识别

本文链接：https://blog.csdn.net/u013588351/article/details/102074562

版权

Convolutional Two-Stream Network Fusion for Video Action Recognition

双流网络的不足
空间融合
- 融合方式
- 融合位置
时间融合
- 3D Conv和3D Pooling
网络架构
- 融合
- 输入

双流网络的不足

CNN在别的领域已经取得了巨大的成功，但在动作识别领域却不尽人意，作者认为该领域在当时存在两个问题：

（1）数据集太小。动作识别中除了图像信息还包含运动和视角各种信息，需要的数据量应该要超过图像分类才对。然而现实是图像分类数据集imagenet每个类别的1000个样例，而ucf101每个类别只有100个样例。

（2）当时提出的CNN架构都不能充分利用时间维度的信息。

当时最好的双流CNN，也存在（2）这个问题，作者具体说了两点：

（1）双流网络无法学习到时间特征和空间特征的像素间的关系。我的理解是空间特征可以学习到物体是什么，例如手臂、躯干、腿… 时间特征可以学习到物体在做什么运动，例如挥动、平移、旋转… 而手臂挥动和腿挥动明显是不同的动作，躯干平移和躯干旋转也是不同的动作。换言之，将空间特征和时间特征结合起来考虑，能为动作识别提供更多线索，也就有希望提升网络的表现。

（2）双流网络对时间维度的利用很有限，空间网络只用了一帧，时间网络只用了10帧。

针对这两个问题，作者对应地提出两种解决方法

（1）空间融合：在隐藏层中间对两个网络进行融合（Figure 2），并且提出了多种融合方式；

（2）时间融合：提出用Conv3D和Pool3D提取时间维度的特征，在时间维度上进行“融合”（Figure 3）。

在这里插入图片描述

空间融合

融合方式

融合层有两个输入，一个输出。 $x_t^a \in R^{H\times W\times D}$ 代表空间网络的输入， $x_t^b \in R^{H\times W\times D}$ 代表时间网络的输入， $y$ 代表融合层的输出。

融合方式	数学表达式	维度	增加参数
Sum fusion	$y^{sum} = x_t^a + x_t^b$	$y^{sum} \in R^{H\times W\times D}$	无
Max fusion	$y^{max} = max(x_t^a, x_t^b)$	$y^{max} \in R^{H\times W\times D}$	无
Concat fusion	$y^{cat} = cat(3, x_t^a, x_t^b)$

最低0.47元/天解锁文章

Andrearn

关注

8
点赞
踩
37

收藏

觉得还不错? 一键收藏
4
评论
【论文】Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition双流网络的不足空间融合融合方式融合位置时间融合3D Conv和3D Pooling网络架构双流网络的不足CNN在别的领域已经取得了巨大的成功，但在动作识别领域却不尽人意，作者认为该领域在当时存在两个问题：（1）数据集太小，噪声太大。动作识别中除了图像信息还包...
复制链接

扫一扫