论文阅读：Convolutional Two-Stream Network Fusion for Video Action Recognition

最新推荐文章于 2023-10-18 09:34:25 发布

Ashleyyyi

最新推荐文章于 2023-10-18 09:34:25 发布

阅读量162

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/handsome_lionet/article/details/132389318

版权

本文探讨了ConvNet在视频人体行为识别中如何融合空间和时间信息，发现早期卷积层融合、空间融合在预测层前以及3D融合等方法能提升性能。实验表明，不同的融合方式和位置对不同数据集效果各异，且3D融合更优。还比较了RNN与CNN在时间信息提取上的优势。

摘要由CSDN通过智能技术生成

简介

卷积神经网络(卷积神经网络)在视频人体行为识别中的应用为融合外观和运动信息提出了不同的解决方案。为了充分利用时空信息，本文研究了ConvNet在空间和时间上的多种融合方式。

当空间和时间网络在卷积层进行融合而非在softmax层进行融合时，不会损失性能，但可以大幅节省参数；在最后一个卷积层进行空间融合效果更好，另外，在预测层之前进行融合可以提高准确率；这种在时空邻域上融合抽象卷积特征的方法进一步提升了性能。

基于这些研究，提出了一种新的用于视频片段时空融合的ConvNet架构。

常规的双流卷积模型，分别提取时间和空间信息

具体方法

空间融合

原来的TSM存在两个缺点，( i )由于融合在分类值上进行操作，无法学习空间和时间特征之间的像素级对应关系；( ii )由于空域卷积仅对单帧图像进行操作，时域卷积仅对相邻的堆叠的帧图像操作，所以网络在时间尺度上收到限制。

目标在于将两个网络在特定的卷积层融合，是的位于相同像素为止的信道对应。空间网络负责目标物体的识别，时间网络负责对应类型的周期运动的识别。滤波器学习这些通道的对应关系。

融合函数负责融合两个特征图，在t时刻产生输出特征图y，这里讨论了几种不同的融合方式，加性融合，最大值融合，卷积融合和双线性融合。

融合位置

融合可以在两个网络中的任意点进行，唯一的约束条件是两个输入映射在时间t处具有相同的空间维度，可以通过上采样来实现。

两种不同的融合方式。两个网络也可以在两层进行融合，每个网络的通道逐像素配准，同时不会导致参数数量的减少(如果仅在conv5处融合,则减半)。

时间融合

2D池化：处理时间输入的一种方法是将网络预测在时间上取平均。在这种情况下，体系结构只在2D特征中进行池化。时间池化层的输入由一段时间内的空间图堆叠生成。

3D池化：在一个大小为W′× H′× T′的3D池化体内对堆叠的数据进行最大池化，将2D池化直接扩展到时域。例如，如果三个时域样本被池化，将对三个堆叠的通道使用3*3*3的最大池化层。不同通道之间没有跨通道池化。

3D池化+3D卷积：首先将四维输入x与滤波器和偏置器进行卷积，然后进行三维池化。滤波器能够对局部时空邻域内特征的加权组合进行建模，典型的邻域为3 × 3 × 3 (空间×时间)。

本文将最大池化推广到3D池化，使其对特征位置随时间的微小变化具有不变性。此外，3D卷积的时空滤波器是可学习的。例如，滤波器可以学习对中心时间样本进行中心加权，或者在时间或空间上进行区分。

网络架构

在细时间尺度( t ± L/2 )上捕获短期信息，用于粗时间尺度( t + T)上时间相邻的输入。两个流通过3D滤波器进行融合，该滤波器能够学习空间流(蓝色)和时间流(绿色)的抽象特征之间的对应关系，以及局部加权组合。来自融合流和时间流的结果特征在空间和时间上进行三维池化，以学习时空(左上)和纯时间(右上)特征来识别视频。