【论文阅读】Learning spatiotemporal features with 3d convolutional networks.

【论文阅读】Learning spatiotemporal features with 3d convolutional networks.

背景

过去几年,深度卷积网络在图像领域进展神速,产生了越来越多的用来抓取图像特征的预训练卷积神经网络模型。然而这些基于图像所学习到的特征,由于缺少了motion信息,因此并不能直接应用到视频领域。本文提出了使用深层3D卷积神经网络来学习spatio-temporal特征。该模型被命名为C3D。

3D卷积和3D池化

作者认为3D卷积神经网络非常适合学习spatio-temporal特征。和2D卷积神经网络相比,3D卷积神经网络由于具备了3D卷积和3D池化,因此能够更好的对temporal信息进行建模。在3D卷积神经网络里,卷积和池化是对spatio-temporal两个维度进行操作,而2D卷积神经网络则仅仅是对spatial这个维度进行操作。如下图所示,2D卷积应用到图像后返回的是一张图像,2D卷积应用到多张图像后返回的也是一张图像,因此在每一个卷积操作之后,2D卷积神经网络都会丢失掉输入信号里的temporal信息。只有3D卷积保留了输入信号里的temporal信息。相同的现象也会发生在2D池化和3D池化上。
在这里插入图片描述

通过实验寻找最合适的3D卷积核尺寸

因为在大型数据集上训练3D卷积神经网络非常耗时,因此本文先通过在UCF-101数据集上做实验来选择最优的3D卷积神经网络结构。主要是确定卷积核的尺寸。由于2D卷积神经网络已经证明了3x3的卷积核能够带来最好的结果,因此3D卷积核需要确定的则是卷积核的temporal深度d,(这里卷积核使用dxkxk来表示,kxk表示空间大小,d表示temporal深度)

通用网络设定

网络的输入是视频片段(video clip),据此来预测该视频片段是属于101个动作类别中的哪一个。所有视频帧预先都被resize成128x171的尺寸,在训练时对视频片段随机采用随机裁剪技术,最终的输入大小为3x16x16x112x112。网络包括5个卷积层、5个池化层、2个全连接层和一个softmax损失层。5个卷积层的filter个数为64、128、256、256、256。所有卷积层都使用了padding以及stride为1来保证输入和输出的尺寸相同。除了第一层外,所有的池化层都是最大池化并且kernel的大小为2x2x2,第一个池化层的kernel大小为1x2x2。两个全连接层的大小都为2048。这个实验从头开始训练网络,mini-batches为30,初始学习率为0.003,每隔4个epoch降低十倍,共训练16个epoch。

不同的卷积核大小

为了搜索最优的3D卷积神经网络,作者只改变卷积层里面的temporal深度di。作者实验了两种类型的网络。1)相同的temporal深度:所有的卷积层都有相同的temporal深度;2)不同的temporal深度:不同卷积层的temporal深度不一样。对于第一种网络,作者测试了不同的temporal深度,分别为:1,3,5和7。对于第二种,作者测试了五个卷积层的temporal深度分别为3-3-5-5-7以及7-5-5-3-3.

实验结果

在这里插入图片描述
如上图所示,在UCF-101数据集上的结果显示,3x3x3的卷积核尺寸效果最好。

在大型数据集Sports-1M上学习spatiotemporal特征

网络结构

根据上个实验的结果以及当时的GPU和算力的限制,作者设计了一个八层的3D卷积神经网络结构,如下图所示:
在这里插入图片描述
需要说明的是,所有卷积层的卷积核尺寸都是3x3x3,stride都是1,除了第一个池化层的kernel尺寸为1x2x2外,其他池化层kernel尺寸都是2x2x2。

实验结果

C3D与DeepVideo和Convolution pooling方法的实验结果如下图所示:
在这里插入图片描述
从上图可以看出,在视频级的准确率方面,C3D都比DeepVideo方法高,但是比Convolution pooling低了5.6%。这是因为Convolution pooling方法使用了120帧的长视频片段,而C3D则使用的是16帧的短视频片段。

动作识别

作者对比了C3D和iDT以及Imagenet两种方法在UCF-101数据集上的表现,结果如下:
在这里插入图片描述
可以看出,C3D模型相比于两个baseline而言是更优的。当然,C3D需要结合iDT才能超过two stream network等其他方法。

结论

这篇论文提出了C3D模型,并通过实验得出了最适合3D卷积神经网络的卷积核尺寸,3D卷积神经网络能够同时学习外表和运动信息等等。这篇论文是利用3D卷积神经网络做视频理解的非常经典的代表作。其提出的C3D模型一度成为后续学界的baseline。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值