文献阅读笔记4: Learning Spatiotemporal Features with 3D Convolutional Networks

最新推荐文章于 2023-02-11 20:10:04 发布

Kraus111

最新推荐文章于 2023-02-11 20:10:04 发布

阅读量441

点赞数 1

分类专栏：文献笔记文章标签：行为识别 3维卷积神经网络 ICCV

本文链接：https://blog.csdn.net/Kraus111/article/details/84961940

版权

文献笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章来源：ICCV2015
主要贡献：
提出在大规模数据集中运用3维卷积核来提取时空特征，并构建了基于3维卷积核的C3D网络。C3D网络不仅是行为识别的一个主流方法，在场景识别、视频分类，行为相似性分析等很多benchmark上表现也非常优异。此外，由于它在提取时空特征的高效率和特征的优秀表示能力，在很多任务中也用它来提取特征。
视频表示
作者认为，合理的视频表示应该具有以下4个优点：
1.generic
2.compact
3.efficient to compute
4.simple to implement
具体网络结构

C3D网络结构包括8个卷积层，5个pooling层，两个FC层和1个softmax层。所有的卷积层都是用的3×3×3的卷积核，stride为1×1×1这个卷积核的大小是通过实验得出，作者实验了很多组合。第一组整个网络的卷积层都是固定卷积核大小，作者实验了1,3,5,7四种不同size的卷积核，第二组则在每个卷积层采用不同大小的卷积核，实验了卷积核大小随着层数加深而递增和递减两种方案。最后，在所有这些卷积核设置中固定卷积核大小3×3×3的网络性能最佳。pooling层kernel都为2×2×2,stride都为2×2×2。不过第一个pooling层比较特殊，用的1×2×2的kernel和1×2×2的stride。这是由于作者考虑到不能过早的对时域的特征进行融合。
C3D学到了什么？
作者通过将特征重新投影回图像域，对C3D提取的每个帧的特征进行了可视化。
从图中可以看出，在前面的几帧中，网络比较关注外观，而后面的帧则比较关注运动信息。
另外，作者还对Imagenet和C3D从UCF101S数据集中提取的特征用t-SNE的方法做了嵌入可视化：
上图中每个颜色代表一种行为类别，很明显可以看出，C3D特征更具有区分性，它在语义上是可分的，这说明它的特征提取得比Imagenet更好。
C3D特征的紧凑性（compact）
为了评估C3D特征的紧凑性，使用PCA将特征投影到较低的维度，并观察在这些低维度特征上训练的线性SVM在UCF 101[38]的分类精度。

在只有10维的极端情况下，C3D的精度为52.8%，比Imagenet和IDT约32%的精度高出20%以上。在50和100 DIM时，C3D的准确率分别为72.6%和75.6%，比Imagenet和IDT提高了10-12%。最后，在500维的情况下，C3D能达到79.4%的精度，比IDT高6%，比Imagenet高11%。这表明C3D特征既紧凑又具有区分能力。这对于存储成本低、检索速度快的大规模检索应用是非常有帮助的
C3D在具体任务中的表现
1.Video classification
Dataset: Sports-1M, the largest video classification benchmark. 1.1 million sports videos, 487 sports categories.
classification results:

可以看出C3D方法超过了大部分baseline,但是比第三种的方法准确度低5.6%，作者认为这种方法用的clips的帧数为120，而C3D用的是16帧的clips,两种方法不具有可比性。
2.Action recognition
Dataset : UCF101, 13, 320 videos, 101 human action categories. Use the three split setting provided with this dataset
Baselines:
1)iDT+BoW+ multi-class linear SVM
2)Imagenet +multi-class linear SVM
C3D:
Extract C3D features ,input them to a multi_class linear SVM. The experiment uses 3 different C3D Nets：
1)C3D trained on I380K
2)C3D trained on sports-1M
3)C3D trained on I380K and fine-tuned on sports-1M
Result:

表中上部为简单特征与SVM组合，中间的部分的输入只有RGB帧，底部为多种特征和方法的结合。在前面描述的三种C3D Nets中，C3D-tuned 的性能最好。然而，这三个网之间的性能差距很小(1%)。。使用一个只有4，096个维度的网络，C3D的精度为82.3%。采用3 nets的C3D，特征维数提高到12288，精度提高到85.2%。结合IDT后，C3D的准确率进一步提高到90.4%，而与Imagenet相结合的准确率仅提高0.6%。这表明C3D能够很好地捕获外观和运动信息，Imagenet提取的外观特征对其的补充效果非常小。而将Imagenet与iDT结合后效果得到了较大的提升，这说明这两种方法的特征能够相互补偿，而iDT关注的是长时间范围的特征建模。
3nets C3D比IDT和Imagenet分别提高了85.2%和16.4%的精度。在只有RGB输入的情况下，与基于cnn的方法相比，C3D比Deep network和Spatial stream network分别高出19.8%和12.6%。并且C3D是直接使用从sports-M上训练后直接在UCF101中使用，没有fine-tuning,其他方法都进行了fine-tuning。
与基于递归神经网络(RNN)的方法相比，C3D比LRCN和LSTM composite model分别高出14.1%和9.4%。在只使用外观特征的情况下，C3D比两种基于RNN方法使用外观特征和光流特征的性能还要好。

Kraus111

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文献阅读笔记4: Learning Spatiotemporal Features with 3D Convolutional Networks

文章来源：ICCV2015主要贡献：提出在大规模数据集中运用3维卷积核来提取时空特征，并构建了基于3维卷积核的C3D网络。C3D网络不仅是行为识别的一个主流方法，在场景识别、视频分类，行为相似性分析等很多benchmark上表现也非常优异。此外，由于它在提取时空特征的高效率和特征的优秀表示能力，在很多任务中也用它来提取特征。视频表示作者认为，合理的视频表示应该具有以下4个优点：...
复制链接

扫一扫