动作识别阅读笔记(二)《Learning Spatiotemporal Features with 3D Convolutional Networks》-CSDN博客

本文链接：https://blog.csdn.net/mhz9123/article/details/86764425

（注：为避免中文翻译不准确带来误解，故附上论文原句。）

论文：Tran D , Bourdev L , Fergus R , et al. Learning Spatiotemporal Features with 3D Convolutional Networks[J]. 2014.

本笔记将以论文各章节顺序进行简要摘录。

1. Introduction

首先作者立了一个flag，说好的视频描述子(video descriptor)应该具备4个属性：
1、通用性(generic)，因此它可以很好地代表不同类型的视频，同时具有辨别性。例如，互联网视频可以是景观，自然场景，体育，电视节目，电影，宠物，食物等；
2、紧凑性(compact)，因为我们正在使用数百万个视频，一个紧凑的描述子可以使处理、存储和检索任务更加可扩展；
3、可以高效的计算( efficient to compute)，因为在现实系统中每分钟需要处理数千个视频；
4、很容易实现(simple to implement)，不同于使用复杂的特征编码方法和分类器，好的描述子即使使用简单的模型（例如线性分类器）也应该很好地工作。
立过flag后，该让主角登场了，当当当当，作者提出的C3D描述子正好符合一个好的描述子的自我修养。
最后列举了本文的3个贡献：
1、实验表明，3D卷积深度网络是同时对外观和运动进行建模的良好的特征学习器。
2、我们经验性发现，对所有层使用3×3×3卷积核最有效。
3、在该描述子上使用简单线性模型，在4个不同任务和6个不同基准上优于或接近的目前最佳方法（见表1）。

2.Related Work

本节介绍了一些前人的工作，说了之前有人使用3D卷积处理相似的任务(3D ConvNets were proposed for human action recognition [15] and for medical image segmentation [14, 42]. )。在所有前人的工作中，我们(作者)的方法和文献[15]很接近，他们使用人体检测器和头部跟踪来分割视频中的 human subject。在一个3层卷积网络中，使用分段的视频用作3D卷积核的输入，对动作进行分类。相比之下，我们的方法将完整的视频帧作为输入，并且不依赖于任何预处理，因此容易扩展到大型数据集。哈哈哈，所以我们不一样。但是使用完整的视频帧作为输入这一点，我们和文献[18]、[36]是一样的，但是他们使用的是2D卷积、2D池化，我们是3D卷积、3D池化。

3. Learning Features with 3D ConvNets

本节主要介绍3D ConvNets的基本操作，分析了3D ConvNets的不同体系结构，并详细阐述了如何在大规模数据集上训练它们，进行特征学习。

2D卷积只能处理空间信息而不能处理时间信息，输入一个图片，输出仍是图片，输入多张堆叠的图片，可以看做是一张多通道的图片，输出同样是图片，因此，经过卷积后，输入信号失去了时间信息，而3D卷积可同时保留空间与时间信息，如下图。
在这里插入图片描述
上面可能有点抽象，举个例子，假设一个视频输入，大小为C×L×H×W，其中C为图像通道(一般为3)，L为视频序列的长度，H和W分别为视频的高与宽。2D卷积时，输入视频相当于多个视频帧堆叠在一起，即输入大小CL×H×W，通过一个卷积操作后（卷积参数为：“same”，stride=1，下同理），大小为1×H×W，N个卷积核就是N×H×W，且2D卷积只是在2个空间维度(水平，垂直)上进行。3D卷积时，kernel size为d∗k∗k，其中d为时间卷积深度，k为空间卷积尺寸(where d is kernel temporal depth and k is kernel spatial size)，输入的特征矩阵大小为C×L×H×W，进过一次3D卷积后，输出为1×L×H×W，3D卷积的池化不仅可以作用在水平和垂直方向，而且可在时间方向L上进行，所以3D卷积同时保留空间与时间信息。

文章接下来就介绍了训练时的一些参数设计，并进行了对比实验，基础网络结构为：5个卷积层，5个池化层，每次卷积后就是池化，2个全连接，最后1个softmax层用于分类。5个卷积核的数量分别为64, 128, 256, 256, 256。池化层都是都是2 × 2 × 2，除了第一层为1× 2 × 2，因为不想过早地合并空间信息(with the intention of not to merge the temporal signal too early and also to satisfy the clip length of 16 frames)。空间卷积核的大小为d∗k∗k，改变d大小做了多组实验，最后显示3×3×3的卷积核效果最好。

接下来的4 5 6章就是介绍本算法在Action recognition、Action Similarity Labeling、Scene and Object Recognition上的表现，balabala……一大推。第7章是Runtime Analysis，结论是C3D很快，能达到实时(Note that C3D is much faster than real-time, processing at 313 fps while the other two methods have a processing speed of less than 4 fps.)。

8. Conclusions

通过实验，发现3D卷积可同时处理时间与空间信息，效果比2D好，而且3×3×3的卷积核效果最好，C3D特征配合线性分类器使用，效果也是杠杠的，C3D特征不仅有效、紧凑而且简单(一个特征的自我修养)(In this work we try to address the problem of learning spatiotemporal features for videos using 3D ConvNets trained on large-scale video datasets. We conducted a systematic study to find the best temporal kernel length for 3D ConvNets. We showed that C3D can model appearance and motion information simultaneously and outperorms the 2D ConvNet features on various video analysis tasks. We demonstrated that C3D features with a linear classifier can outperform or approach current best methods on different video analysis benchmarks. Last but not least, the proposed C3D features are efficient, compact, and extremely simple to use.)。

最后还是那句，本文只是简单介绍，细节部分还请移步原论文，文中错误与不足之处，还请阅者指教。

参考资料：

论文翻译
 github代码