【视频理解】八、Convolutional fusion


参考资料

论文

  Convolutional Two-Stream Network Fusion for Video Action Recognition

博客

  [论文笔记] two-stream和two-stream fusion

  【论文】Convolutional Two-Stream Network Fusion for Video Action Recognition


第1章 引言

 CNN在别的领域已经取得了巨大的成功,但在动作识别领域却不尽人意,作者认为存在两个问题:

  • (1)数据集太小。动作识别中除了图像信息还包含运动和视角各种信息,需要的数据量应该要超过图像分类才对。然而现实是图像分类数据集imagenet每个类别的1000个样例,而ucf101每个类别只有100个样例。
  • (2)当时提出的CNN架构都不能充分利用时间维度的信息

 双流网络也存在一些问题,作者具体说了两点:

(1)双流网络无法学习到时间特征和空间特征的像素间的关系

 空间特征可以学习到物体是什么,例如手臂、躯干、腿…

 时间特征可以学习到物体在做什么运动,例如挥动、平移、旋转…

 而手臂挥动和腿挥动明显是不同的动作,躯干平移和躯干旋转也是不同的动作。

 换言之,将空间特征和时间特征结合起来考虑,能为动作识别提供更多线索,可以提升网络的表现。

(2)双流网络对时间维度的利用很有限,空间网络只用了一帧,时间网络只用了10帧

在这里插入图片描述


针对这两个问题,作者对应地提出两种解决方法:

  • (1)空间融合:在隐藏层中间对两个网络进行融合,并且提出了多种融合方式;

  • (2)时间融合:提出用Conv3D和Pool3D提取时间维度的特征,在时间维度上进行“融合”。


第2章 主要方法

2.1 Spatial fusion

2.1.1 不同的空间融合策略

 如果是对于空间像素级的对应关系,只要确保两个网络特征图的尺寸大小相同就可以融合。如果是针对Channel上的融合,需要确保两个网络的通道数相等,下面介绍几种融合策略:

  1. Sum fusion: 按对应channel进行矩阵对应位置元素加和,通道数为D。
  2. Max fusion: 按对应channel进行矩阵对应位置元素取最大值,通道数为D。
  3. Concatenation fusion: 将channel堆叠起来,通道数为2D。
  4. Conv fusion: 先将channel堆叠起来,再用1×1的卷积做通道压缩,通道数为D。
  5. Bilinear fusion: 遍历channel计算矩阵乘法,会导致通道数骤增,通道数为D×D。说好点是对所有信息融合,说坏点就是分不清主次。

在这里插入图片描述


2.1.2 不同位置的融合效果

 左图显示了第四个conv层之后的融合。从融合点来看,仅使用单个网络塔。右图显示了两层(conv5之后和fc8之后)的融合,其中两个网络塔都被保留,一个作为混合时空网络,另一个作为纯空间网络。

在这里插入图片描述

下表展示了卷积融合在不同层融合的性能比较:

 (1)早融合:在relu5之前融合,效果不佳;

 (2)早融合加多融合:效果不佳;

 (3)晚融合(relu5)和多融合(relu5+fc8)效果最好,但是多融合训练参数多一倍;

在这里插入图片描述


2.2 Temporal fusion

 作者思考如何将特征在空间和时间上更好的融合,想到了3D pooling3D conv两个操作。如下图所示。3D pooling利用3×3×3的max pooling来实现。3D卷积的尺寸大小为3×3×3,即W×H×T×D×D’。

在这里插入图片描述

 通过将2D卷积和2D池化拓展到3D卷积和3D池化,可以提取到时间维度的特征。在concat融合层之后添加3D Conv和3D Pooling,性能略有提升。

在这里插入图片描述


第3章 网络结构

 添加了一个concat融合层,一个Conv3D层。用两个Pool3D层替换了原来2D的pool5。这是本文提出的最终架构,相比原来的双流架构,增加的参数只有Conv3D中的少量参数,但通过融合的方式大大的提升了网络性能。

在这里插入图片描述

 实验结果如下表所示:

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

travellerss

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值