【论文阅读】Learning spatiotemporal features with 3d convolutional networks.

最新推荐文章于 2024-07-25 14:29:46 发布

不显

最新推荐文章于 2024-07-25 14:29:46 发布

阅读量838

点赞数 1

分类专栏：论文阅读笔记文章标签：神经网络深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_41648477/article/details/105957440

版权

论文阅读笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【论文阅读】Learning spatiotemporal features with 3d convolutional networks.

背景

过去几年，深度卷积网络在图像领域进展神速，产生了越来越多的用来抓取图像特征的预训练卷积神经网络模型。然而这些基于图像所学习到的特征，由于缺少了motion信息，因此并不能直接应用到视频领域。本文提出了使用深层3D卷积神经网络来学习spatio-temporal特征。该模型被命名为C3D。

3D卷积和3D池化

作者认为3D卷积神经网络非常适合学习spatio-temporal特征。和2D卷积神经网络相比，3D卷积神经网络由于具备了3D卷积和3D池化，因此能够更好的对temporal信息进行建模。在3D卷积神经网络里，卷积和池化是对spatio-temporal两个维度进行操作，而2D卷积神经网络则仅仅是对spatial这个维度进行操作。如下图所示，2D卷积应用到图像后返回的是一张图像，2D卷积应用到多张图像后返回的也是一张图像，因此在每一个卷积操作之后，2D卷积神经网络都会丢失掉输入信号里的temporal信息。只有3D卷积保留了输入信号里的temporal信息。相同的现象也会发生在2D池化和3D池化上。
在这里插入图片描述

通过实验寻找最合适的3D卷积核尺寸

因为在大型数据集上训练3D卷积神经网络非常耗时，因此本文先通过在UCF-101数据集上做实验来选择最优的3D卷积神经网络结构。主要是确定卷积核的尺寸。由于2D卷积神经网络已经证明了3x3的卷积核能够带来最好的结果，因此3D卷积核需要确定的则是卷积核的temporal深度d，（这里卷积核使用dxkxk来表示，kxk表示空间大小，d表示temporal深度）。

通用网络设定

网络的输入是视频片段（video clip），据此来预测该视频片段是属于101个动作类别中的哪一个。所有视频帧预先都被resize成128x171的尺寸，在训练时对视频片段随机采用随机裁剪技术，最终的输入大小为3x16x16x112x112。网络包括5个卷积层、5个池化层、2个全连接层和一个softmax损失层。5个卷积层的filter个数为64、128、256、256、256。所有卷积层都使用了padding以及stride为1来保证输入和输出的尺寸相同。除了第一层外，所有的池化层都是最大池化并且kernel的大小为2x2x2，第一个池化层的kernel大小为1x2x2。两个全连接层的大小都为2048。这个实验从头开始训练网络，mini-batches为30，初始学习率为0.003，每隔4个epoch降低十倍，共训练16个epoch。

不同的卷积核大小

为了搜索最优的3D卷积神经网络，作者只改变卷积层里面的temporal深度di。作者实验了两种类型的网络。1）相同的temporal深度：所有的卷积层都有相同的temporal深度；2）不同的temporal深度：不同卷积层的temporal深度不一样。对于第一种网络，作者测试了不同的temporal深度，分别为：1，3，5和7。对于第二种，作者测试了五个卷积层的temporal深度分别为3-3-5-5-7以及7-5-5-3-3.

实验结果

在这里插入图片描述
如上图所示，在UCF-101数据集上的结果显示，3x3x3的卷积核尺寸效果最好。

在大型数据集Sports-1M上学习spatiotemporal特征

网络结构

根据上个实验的结果以及当时的GPU和算力的限制，作者设计了一个八层的3D卷积神经网络结构，如下图所示：
在这里插入图片描述
需要说明的是，所有卷积层的卷积核尺寸都是3x3x3，stride都是1，除了第一个池化层的kernel尺寸为1x2x2外，其他池化层kernel尺寸都是2x2x2。

实验结果

C3D与DeepVideo和Convolution pooling方法的实验结果如下图所示：
在这里插入图片描述
从上图可以看出，在视频级的准确率方面，C3D都比DeepVideo方法高，但是比Convolution pooling低了5.6%。这是因为Convolution pooling方法使用了120帧的长视频片段，而C3D则使用的是16帧的短视频片段。