【视频理解】八、Convolutional fusion

travellerss

已于 2023-09-17 09:05:56 修改

阅读量62

点赞数

分类专栏：视频理解文章标签：深度学习

于 2022-11-06 22:00:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30196905/article/details/127722107

版权

视频理解专栏收录该内容

15 篇文章 6 订阅

订阅专栏

目录

参考资料
第1章引言
第2章主要方法
第3章网络结构

参考资料

论文：

Convolutional Two-Stream Network Fusion for Video Action Recognition

博客：

[论文笔记] two-stream和two-stream fusion

【论文】Convolutional Two-Stream Network Fusion for Video Action Recognition

第1章引言

CNN在别的领域已经取得了巨大的成功，但在动作识别领域却不尽人意，作者认为存在两个问题：

（1）数据集太小。动作识别中除了图像信息还包含运动和视角各种信息，需要的数据量应该要超过图像分类才对。然而现实是图像分类数据集imagenet每个类别的1000个样例，而ucf101每个类别只有100个样例。
（2）当时提出的CNN架构都不能充分利用时间维度的信息。

双流网络也存在一些问题，作者具体说了两点：

（1）双流网络无法学习到时间特征和空间特征的像素间的关系。

空间特征可以学习到物体是什么，例如手臂、躯干、腿…

时间特征可以学习到物体在做什么运动，例如挥动、平移、旋转…

而手臂挥动和腿挥动明显是不同的动作，躯干平移和躯干旋转也是不同的动作。

换言之，将空间特征和时间特征结合起来考虑，能为动作识别提供更多线索，可以提升网络的表现。

（2）双流网络对时间维度的利用很有限，空间网络只用了一帧，时间网络只用了10帧。

在这里插入图片描述

针对这两个问题，作者对应地提出两种解决方法：

（1）空间融合：在隐藏层中间对两个网络进行融合，并且提出了多种融合方式；
（2）时间融合：提出用Conv3D和Pool3D提取时间维度的特征，在时间维度上进行“融合”。

第2章主要方法

2.1 Spatial fusion

2.1.1 不同的空间融合策略

如果是对于空间像素级的对应关系，只要确保两个网络特征图的尺寸大小相同就可以融合。如果是针对Channel上的融合，需要确保两个网络的通道数相等，下面介绍几种融合策略：

Sum fusion: 按对应channel进行矩阵对应位置元素加和，通道数为D。
Max fusion: 按对应channel进行矩阵对应位置元素取最大值，通道数为D。
Concatenation fusion: 将channel堆叠起来，通道数为2D。
Conv fusion: 先将channel堆叠起来，再用1×1的卷积做通道压缩，通道数为D。
Bilinear fusion: 遍历channel计算矩阵乘法，会导致通道数骤增，通道数为D×D。说好点是对所有信息融合，说坏点就是分不清主次。

在这里插入图片描述

2.1.2 不同位置的融合效果

左图显示了第四个conv层之后的融合。从融合点来看，仅使用单个网络塔。右图显示了两层（conv5之后和fc8之后）的融合，其中两个网络塔都被保留，一个作为混合时空网络，另一个作为纯空间网络。

在这里插入图片描述

下表展示了卷积融合在不同层融合的性能比较：

（1）早融合：在relu5之前融合，效果不佳；

（2）早融合加多融合：效果不佳；

（3）晚融合（relu5）和多融合（relu5+fc8）效果最好，但是多融合训练参数多一倍；

在这里插入图片描述

2.2 Temporal fusion

作者思考如何将特征在空间和时间上更好的融合，想到了3D pooling和3D conv两个操作。如下图所示。3D pooling利用3×3×3的max pooling来实现。3D卷积的尺寸大小为3×3×3，即W×H×T×D×D’。

在这里插入图片描述

通过将2D卷积和2D池化拓展到3D卷积和3D池化，可以提取到时间维度的特征。在concat融合层之后添加3D Conv和3D Pooling，性能略有提升。

在这里插入图片描述

第3章网络结构

添加了一个concat融合层，一个Conv3D层。用两个Pool3D层替换了原来2D的pool5。这是本文提出的最终架构，相比原来的双流架构，增加的参数只有Conv3D中的少量参数，但通过融合的方式大大的提升了网络性能。

在这里插入图片描述

实验结果如下表所示：

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【视频理解】八、Convolutional fusion

Convolutional fusion
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

travellerss 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。