-
文章来源:ICCV2015
-
主要贡献:
提出在大规模数据集中运用3维卷积核来提取时空特征,并构建了基于3维卷积核的C3D网络。C3D网络不仅是行为识别的一个主流方法,在场景识别、视频分类,行为相似性分析等很多benchmark上表现也非常优异。此外,由于它在提取时空特征的高效率和特征的优秀表示能力,在很多任务中也用它来提取特征。 -
视频表示
作者认为,合理的视频表示应该具有以下4个优点:
1.generic
2.compact
3.efficient to compute
4.simple to implement -
具体网络结构
C3D网络结构包括8个卷积层,5个pooling层,两个FC层和1个softmax层。所有的卷积层都是用的3×3×3的卷积核,stride为1×1×1这个卷积核的大小是通过实验得出,作者实验了很多组合。第一组整个网络的卷积层都是固定卷积核大小,作者实验了1,3,5,7四种不同size的卷积核,第二组则在每个卷积层采用不同大小的卷积核,实验了卷积核大小随着层数加深而递增和递减两种方案。最后,在所有这些卷积核设置中固定卷积核大小3×3×3的网络性能最佳。pooling层kernel都为2×2×2,stride都为2×2×2。不过第一个pooling层比较特殊,用的1×2×2的kernel和1×2×2的stride。这是由于作者考虑到不能过早的对时域的特征进行融合。 -
C3D学到了什么?
作者通过将特征重新投影回图像域,对C3D提取的每个帧的特征进行了可视化。
从图中可以看出,在前面的几帧中,网络比较关注外观,而后面的帧则比较关注运动信息。
另外,作者还对Imagenet和C3D从UCF101S数据集中提取的特征用t-SNE的方法做了嵌入可视化:
上图中每个颜色代表一种行为类别,很明显可以看出,C3D特征更具有区分性,它在语义上是可分的,这说明它的特征提取得比Imagenet更好。
C3D特征的紧凑性(compact)
为了评估C3D特征的紧凑性,使用PCA将特征投影到较低的维度,并观察在这些低维度特征上训练的线性SVM在UCF 101[38]的分类精度。
在只有10维的极端情况下,C3D的精度为52.8%,比Imagenet和IDT约32%的精度高出20%以上。在50和100 DIM时,C3D的准确率分别为72.6%和75.6%,比Imagenet和IDT提高了10-12%。最后,在500维的情况下,C3D能达到79.4%的精度,比IDT高6%,比Imagenet高11%。这表明C3D特征既紧凑又具有区分能力。这对于存储成本低、检索速度快的大规模检索应用是非常有帮助的 -
C3D在具体任务中的表现
1.Video classification
Dataset: Sports-1M, the largest video classification benchmark. 1.1 million sports videos, 487 sports categories.
classification results:
可以看出C3D方法超过了大部分baseline,但是比第三种的方法准确度低5.6%,作者认为这种方法用的clips的帧数为120,而C3D用的是16帧的clips,两种方法不具有可比性。
2.Action recognition
Dataset : UCF101, 13, 320 videos, 101 human action categories. Use the three split setting provided with this dataset
Baselines:
1)iDT+BoW+ multi-class linear SVM
2)Imagenet +multi-class linear SVM
C3D:
Extract C3D features ,input them to a multi_class linear SVM. The experiment uses 3 different C3D Nets:
1)C3D trained on I380K
2)C3D trained on sports-1M
3)C3D trained on I380K and fine-tuned on sports-1M
Result:
表中上部为简单特征与SVM组合,中间的部分的输入只有RGB帧,底部为多种特征和方法的结合。 在前面描述的三种C3D Nets中,C3D-tuned 的性能最好。然而,这三个网之间的性能差距很小(1%)。。使用一个只有4,096个维度的网络,C3D的精度为82.3%。采用3 nets的C3D,特征维数提高到12288,精度提高到85.2%。结合IDT后,C3D的准确率进一步提高到90.4%,而与Imagenet相结合的准确率仅提高0.6%。这表明C3D能够很好地捕获外观和运动信息,Imagenet提取的外观特征对其的补充效果非常小。而将Imagenet与iDT结合后效果得到了较大的提升,这说明这两种方法的特征能够相互补偿,而iDT关注的是长时间范围的特征建模。
3nets C3D比IDT和Imagenet分别提高了85.2%和16.4%的精度。在只有RGB输入的情况下,与基于cnn的方法相比,C3D比Deep network和Spatial stream network分别高出19.8%和12.6%。并且C3D是直接使用从sports-M上训练后直接在UCF101中使用,没有fine-tuning,其他方法都进行了fine-tuning。
与基于递归神经网络(RNN)的方法相比,C3D比LRCN和LSTM composite model分别高出14.1%和9.4%。在只使用外观特征的情况下,C3D比两种基于RNN方法使用外观特征和光流特征的性能还要好。
文献阅读笔记4: Learning Spatiotemporal Features with 3D Convolutional Networks
最新推荐文章于 2023-02-11 20:10:04 发布