文献阅读笔记4: Learning Spatiotemporal Features with 3D Convolutional Networks

  • 文章来源:ICCV2015

  • 主要贡献:
    提出在大规模数据集中运用3维卷积核来提取时空特征,并构建了基于3维卷积核的C3D网络。C3D网络不仅是行为识别的一个主流方法,在场景识别、视频分类,行为相似性分析等很多benchmark上表现也非常优异。此外,由于它在提取时空特征的高效率和特征的优秀表示能力,在很多任务中也用它来提取特征。

  • 视频表示
    作者认为,合理的视频表示应该具有以下4个优点:
    1.generic
    2.compact
    3.efficient to compute
    4.simple to implement

  • 具体网络结构
    在这里插入图片描述
    C3D网络结构包括8个卷积层,5个pooling层,两个FC层和1个softmax层。所有的卷积层都是用的3×3×3的卷积核,stride为1×1×1这个卷积核的大小是通过实验得出,作者实验了很多组合。第一组整个网络的卷积层都是固定卷积核大小,作者实验了1,3,5,7四种不同size的卷积核,第二组则在每个卷积层采用不同大小的卷积核,实验了卷积核大小随着层数加深而递增和递减两种方案。最后,在所有这些卷积核设置中固定卷积核大小3×3×3的网络性能最佳。pooling层kernel都为2×2×2,stride都为2×2×2。不过第一个pooling层比较特殊,用的1×2×2的kernel和1×2×2的stride。这是由于作者考虑到不能过早的对时域的特征进行融合。

  • C3D学到了什么?
    作者通过将特征重新投影回图像域,对C3D提取的每个帧的特征进行了可视化。在这里插入图片描述
    从图中可以看出,在前面的几帧中,网络比较关注外观,而后面的帧则比较关注运动信息。
    另外,作者还对Imagenet和C3D从UCF101S数据集中提取的特征用t-SNE的方法做了嵌入可视化:在这里插入图片描述
    上图中每个颜色代表一种行为类别,很明显可以看出,C3D特征更具有区分性,它在语义上是可分的,这说明它的特征提取得比Imagenet更好。
    C3D特征的紧凑性(compact)
    为了评估C3D特征的紧凑性,使用PCA将特征投影到较低的维度,并观察在这些低维度特征上训练的线性SVM在UCF 101[38]的分类精度。
    在这里插入图片描述
    在只有10维的极端情况下,C3D的精度为52.8%,比Imagenet和IDT约32%的精度高出20%以上。在50和100 DIM时,C3D的准确率分别为72.6%和75.6%,比Imagenet和IDT提高了10-12%。最后,在500维的情况下,C3D能达到79.4%的精度,比IDT高6%,比Imagenet高11%。这表明C3D特征既紧凑又具有区分能力。这对于存储成本低、检索速度快的大规模检索应用是非常有帮助的

  • C3D在具体任务中的表现
    1.Video classification
    Dataset: Sports-1M, the largest video classification benchmark. 1.1 million sports videos, 487 sports categories.
    classification results:
    在这里插入图片描述
    可以看出C3D方法超过了大部分baseline,但是比第三种的方法准确度低5.6%,作者认为这种方法用的clips的帧数为120,而C3D用的是16帧的clips,两种方法不具有可比性。
    2.Action recognition
    Dataset : UCF101, 13, 320 videos, 101 human action categories. Use the three split setting provided with this dataset
    Baselines:
    1)iDT+BoW+ multi-class linear SVM
    2)Imagenet +multi-class linear SVM
    C3D:
    Extract C3D features ,input them to a multi_class linear SVM. The experiment uses 3 different C3D Nets:
    1)C3D trained on I380K
    2)C3D trained on sports-1M
    3)C3D trained on I380K and fine-tuned on sports-1M
    Result:
    在这里插入图片描述
    表中上部为简单特征与SVM组合,中间的部分的输入只有RGB帧,底部为多种特征和方法的结合。 在前面描述的三种C3D Nets中,C3D-tuned 的性能最好。然而,这三个网之间的性能差距很小(1%)。。使用一个只有4,096个维度的网络,C3D的精度为82.3%。采用3 nets的C3D,特征维数提高到12288,精度提高到85.2%。结合IDT后,C3D的准确率进一步提高到90.4%,而与Imagenet相结合的准确率仅提高0.6%。这表明C3D能够很好地捕获外观和运动信息,Imagenet提取的外观特征对其的补充效果非常小。而将Imagenet与iDT结合后效果得到了较大的提升,这说明这两种方法的特征能够相互补偿,而iDT关注的是长时间范围的特征建模。
    3nets C3D比IDT和Imagenet分别提高了85.2%和16.4%的精度。在只有RGB输入的情况下,与基于cnn的方法相比,C3D比Deep network和Spatial stream network分别高出19.8%和12.6%。并且C3D是直接使用从sports-M上训练后直接在UCF101中使用,没有fine-tuning,其他方法都进行了fine-tuning。
    与基于递归神经网络(RNN)的方法相比,C3D比LRCN和LSTM composite model分别高出14.1%和9.4%。在只使用外观特征的情况下,C3D比两种基于RNN方法使用外观特征和光流特征的性能还要好。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值