【论文】Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition

双流网络的不足

CNN在别的领域已经取得了巨大的成功,但在动作识别领域却不尽人意,作者认为该领域在当时存在两个问题:

(1)数据集太小。动作识别中除了图像信息还包含运动和视角各种信息,需要的数据量应该要超过图像分类才对。然而现实是图像分类数据集imagenet每个类别的1000个样例,而ucf101每个类别只有100个样例。

(2)当时提出的CNN架构都不能充分利用时间维度的信息。


当时最好的双流CNN,也存在(2)这个问题,作者具体说了两点:

(1)双流网络无法学习到时间特征和空间特征的像素间的关系。我的理解是空间特征可以学习到物体是什么,例如手臂、躯干、腿… 时间特征可以学习到物体在做什么运动,例如挥动、平移、旋转… 而手臂挥动和腿挥动明显是不同的动作,躯干平移和躯干旋转也是不同的动作。换言之,将空间特征和时间特征结合起来考虑,能为动作识别提供更多线索,也就有希望提升网络的表现。

(2)双流网络对时间维度的利用很有限,空间网络只用了一帧,时间网络只用了10帧。


针对这两个问题,作者对应地提出两种解决方法

(1)空间融合:在隐藏层中间对两个网络进行融合(Figure 2),并且提出了多种融合方式;

(2)时间融合:提出用Conv3D和Pool3D提取时间维度的特征,在时间维度上进行“融合”(Figure 3)。

在这里插入图片描述
在这里插入图片描述

空间融合

融合方式

融合层有两个输入,一个输出。 x t a ∈ R H × W × D x_t^a \in R^{H\times W\times D} xtaRH×W×D 代表空间网络的输入, x t b ∈ R H × W × D x_t^b \in R^{H\times W\times D} xtbRH×W×D 代表时间网络的输入, y y y 代表融合层的输出。

融合方式 数学表达式 维度 增加参数
Sum fusion y s u m = x t a + x t b y^{sum} = x_t^a + x_t^b ysum=xta+xtb y s u m ∈ R H × W × D y^{sum} \in R^{H\times W\times D} ysumRH×W×D
Max fusion y m a x = m a x ( x t a , x t b ) y^{max} = max(x_t^a, x_t^b) ymax=max(xta,xtb) y m a x ∈ R H × W × D y^{max} \in R^{H\times W\times D} ymaxRH×W×D
Concat fusion y c a t = c a t ( 3 , x t a , x t b ) y^{cat} = cat(3, x_t^a, x_t^b) ycat
  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值